Title: Chapitre Pr
1Chapitre Préliminaire Entrepôts de données
- Christelle Scharff
- IFI
- Juin 2004
2Plan et objectifs
- Informatique de production
- Transactions
- Informatique décisionnelle
- Entrepôts de données
- Datamarts
- Construction des entrepôts
- Opérations OLAP
- Problèmes
3Informatique de production
- Interrogations et modifications fréquentes des
données par de nombreux utilisateurs - Nécessité de conserver la cohérence des données
- Les systèmes transactionnels (OLTP) garantissent
la cohérence des données - Linformatique de production est optimisée pour
les tâches répétitives et planifiées - Exemples
- Factures, commandes
4Transactions
- Programmes informatiques qui inter-agissent avec
les bases de données ayant les propriétés
suivantes - A - Atomicité
- C - Consistance
- I - Isolation
- D - Durée
5Informatique décisionnelle
- Chargement périodique des données
- Pas de modifications des données
- Interrogations non régulières, planifiées,
parfois longues des systèmes dinformation
décisionnels - Exemples de questions
- Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ? - Comment se comporte le produit X par rapport au
produit Y? - Quel type de client peut acheter le produit X?
- Exemple OLAP (Codd)
6OLTP OLAP
Utilisateurs Lambda Spécialisés
Fonctions Journalier Décision
Design DB Oriente application Oriente sujet
Données Courantes, détaillées, plates, à jour Historiques, résumées, multi-dimensionnelles, intégrées, consolidées
Utilisation Répétitive Ad hoc
Accès Écrire/Lire Index / Hachage sur les clés primaires Lire
Transactions/Requêtes Transaction courte et simple Requêtes complexes
lignes accédées Dizaines Millions
utilisateurs Milliers Centaines
Taille DB 100 MG-GB 100 GB-TB
Métriques Transactions Réponses, requêtes
7Entrepôt de données (1)
- Contient de grandes quantités de données
- provenant de diverses sources,
- sauvées sous un schéma de données unique, et
- résidant à un endroit unique
- Construit par
- Nettoyage, transformation, intégration,
chargement et rafraîchissement périodiques des
données
8Entrepôt de données (2)
- Organisés suivant des thèmes précis (clients,
activités, items) - Organisés suivant une chronologie historique
- Résument les données
- Plus lisibles et plus simples que les données
initiales - Introduction de redondance éventuelle
- Cohérence globale des données
- Les données / informations des entrepôts ne sont
pas modifiees
9Datamarts
- Versions simplifiées, car plus ciblées, des
entrepôts des données
10Nettoyage des données
- Erreurs de saisie
- Intégrité des domaines
- Exemple Les dates
- Données manquantes
11Transformations des données
- Format
- Exemple Type des données
- Consolidation
- Exemple Choix des unités et des représentations
- Uniformisation déchelle
- Exemple Homogénéisation des échelles
12Requêtes sur les entrepôts de données
- Extraire des données
- Les outils OLAP
- Le progiciel SAS
- Un progiciel est un logiciel de gestion
- Outils de création de rapports
- Outils dans les SGBD
- Un language (Exemple DMQL)
13Représentation conceptuelle des entrepôts de
données
- Souvent représentés par une structure à plusieurs
dimensions - Une dimension est un attribut ou un ensemble
dattributs - Les cellules sauvent des données agrégées
appelées faits - Représentations Relations, cube de données,
hyper-cube de données - Utilisation dun language (Exemples SQL ou DMQL)
pour peupler les entrepôts
14Exemple
- Total des ventes à un client dans une tranche
horaire d'un jour précis, pour un produit choisi
15Représentation logique des entrepôts de données
- Implantation classique Modèle en étoile
- Au centre la table des faits
- Les dimensions comme autant de branches à
l'étoile. - Les branches de l'étoile sont des relations de 1
à plusieurs - La table des faits est énorme contrairement aux
tables des dimensions - Le modèle est très dissymétrique en comparaison
avec les modèles relationnels des bases de
production - Létoile est un modèle simple
16Exemple
- Un enregistrement dans la table des faits Ventes
correspond à un total des ventes à un client dans
une tranche horaire d'un jour précis, pour un
produit choisi.
17Autres modèles
- Le modèle en flocon de neige
- Les tables des dimensions sont normalisées
- Le modèle de la constellation des faits
- Une table de faits peut être partagée par
plusieurs tables de dimension
18Hiérarchies
- Hiérarchies de schémas
- Ordre total ou partiel sur les attributs des
schémas - Décrivent des relations sémantiques entre les
attributs - Exemple Rue lt Ville lt État_ou_Province lt Pays
- Hiérarchies de groupes
- Organise les valeurs dattributs ou de dimensions
en groupes - Un ordre total ou partiel peut être défini entre
les groupes - Exemples 045 ? Jeune, 46150 ? Agé ,
Jeune, Agé ? all(age)
19Opération Navigation ou Forage
- Pour obtenir plus de détails sur la signification
d'un résultat en affinant une dimension ou en
ajoutant une dimension - Exemple
- Supposons qu'un utilisateur final demande les
chiffres d'affaires par produit, et s'étonne d'un
résultat pour un produit donné. Il aura sûrement
l'envie d'en analyser les raisons. Une solution
consisterait à ajouter la dimension temps, dans
l'unité de temps trimestrielle pour trouver une
variation saisonnière, dans l'unité hebdomadaire
pour envisager l'effet week-end ou encore la
dimension magasin pour mettre en évidence un
effet géographique.
20Opération Agrégats
- Pour obtenir moins de détails
- Élimination dune dimension ou regroupement des
éléments dune dimension - Exemple
- Ville lt Etat lt Province lt Pays
- Au lieu de regrouper les données par ville, elles
sont regroupées par pays
21Autres opérations
- Sélection sur une dimension ou plusieurs
dimensions (tranche du cube) - Rotation / pivot du cube
- Dautres opérations impliquent plus dune table
des faits
22Problèmes
- Supports physiques
- Peupler lentrepôt
- Calcul des valeurs de la table des faits
- Structure creuse
- La valeur est 0
- Exemple 300 des 3000 produits sont vendus chaque
jour - Problèmes des clés et des indexes
- Organisation physique importante du point de vue
des performances - Les tables de dimension sont souvent indexées
suivant tous leurs champs
23Exercice
- Exercice du magasin délectronique
24Références
- http//www.grappa.univ-lille3.fr/polys/fouille/
- J. Han, and M. Kamber. Data Mining Concepts and
Techniques. Morgan Kaufmann.