Chapitre Pr - PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

Chapitre Pr

Description:

Les syst mes transactionnels (OLTP) garantissent la coh rence des donn es ... Programmes informatiques qui inter-agissent avec les bases de donn es ayant les ... – PowerPoint PPT presentation

Number of Views:33
Avg rating:3.0/5.0
Slides: 25
Provided by: Scha89
Learn more at: http://www.csis.pace.edu
Category:

less

Transcript and Presenter's Notes

Title: Chapitre Pr


1
Chapitre Préliminaire Entrepôts de données
  • Christelle Scharff
  • IFI
  • Juin 2004

2
Plan et objectifs
  • Informatique de production
  • Transactions
  • Informatique décisionnelle
  • Entrepôts de données
  • Datamarts
  • Construction des entrepôts
  • Opérations OLAP
  • Problèmes

3
Informatique de production
  • Interrogations et modifications fréquentes des
    données par de nombreux utilisateurs
  • Nécessité de conserver la cohérence des données
  • Les systèmes transactionnels (OLTP) garantissent
    la cohérence des données
  • Linformatique de production est optimisée pour
    les tâches répétitives et planifiées
  • Exemples
  • Factures, commandes

4
Transactions
  • Programmes informatiques qui inter-agissent avec
    les bases de données ayant les propriétés
    suivantes
  • A - Atomicité
  • C - Consistance
  • I - Isolation
  • D - Durée

5
Informatique décisionnelle
  • Chargement périodique des données
  • Pas de modifications des données
  • Interrogations non régulières, planifiées,
    parfois longues des systèmes dinformation
    décisionnels
  • Exemples de questions
  • Quelles sont les ventes du produit X pendant le
    trimestre A de l'année B dans la région C ?
  • Comment se comporte le produit X par rapport au
    produit Y?
  • Quel type de client peut acheter le produit X?
  • Exemple OLAP (Codd)

6
OLTP OLAP
Utilisateurs Lambda Spécialisés
Fonctions Journalier Décision
Design DB Oriente application Oriente sujet
Données Courantes, détaillées, plates, à jour Historiques, résumées, multi-dimensionnelles, intégrées, consolidées
Utilisation Répétitive Ad hoc
Accès Écrire/Lire Index / Hachage sur les clés primaires Lire
Transactions/Requêtes Transaction courte et simple Requêtes complexes
lignes accédées Dizaines Millions
utilisateurs Milliers Centaines
Taille DB 100 MG-GB 100 GB-TB
Métriques Transactions Réponses, requêtes
7
Entrepôt de données (1)
  • Contient de grandes quantités de données
  • provenant de diverses sources,
  • sauvées sous un schéma de données unique, et
  • résidant à un endroit unique
  • Construit par
  • Nettoyage, transformation, intégration,
    chargement et rafraîchissement périodiques des
    données

8
Entrepôt de données (2)
  • Organisés suivant des thèmes précis (clients,
    activités, items)
  • Organisés suivant une chronologie historique
  • Résument les données
  • Plus lisibles et plus simples que les données
    initiales
  • Introduction de redondance éventuelle
  • Cohérence globale des données
  • Les données / informations des entrepôts ne sont
    pas modifiees

9
Datamarts
  • Versions simplifiées, car plus ciblées, des
    entrepôts des données

10
Nettoyage des données
  • Erreurs de saisie
  • Intégrité des domaines
  • Exemple Les dates
  • Données manquantes

11
Transformations des données
  • Format
  • Exemple Type des données
  • Consolidation
  • Exemple Choix des unités et des représentations
  • Uniformisation déchelle
  • Exemple Homogénéisation des échelles

12
Requêtes sur les entrepôts de données
  • Extraire des données
  • Les outils OLAP
  • Le progiciel SAS
  • Un progiciel est un logiciel de gestion
  • Outils de création de rapports
  • Outils dans les SGBD
  • Un language (Exemple DMQL)

13
Représentation conceptuelle des entrepôts de
données
  • Souvent représentés par une structure à plusieurs
    dimensions
  • Une dimension est un attribut ou un ensemble
    dattributs
  • Les cellules sauvent des données agrégées
    appelées faits
  • Représentations Relations, cube de données,
    hyper-cube de données
  • Utilisation dun language (Exemples SQL ou DMQL)
    pour peupler les entrepôts

14
Exemple
  • Total des ventes à un client dans une tranche
    horaire d'un jour précis, pour un produit choisi

15
Représentation logique des entrepôts de données
  • Implantation classique Modèle en étoile
  • Au centre la table des faits
  • Les dimensions comme autant de branches à
    l'étoile.
  • Les branches de l'étoile sont des relations de 1
    à plusieurs
  • La table des faits est énorme contrairement aux
    tables des dimensions
  • Le modèle est très dissymétrique en comparaison
    avec les modèles relationnels des bases de
    production
  • Létoile est un modèle simple

16
Exemple
  • Un enregistrement dans la table des faits Ventes
    correspond à un total des ventes à un client dans
    une tranche horaire d'un jour précis, pour un
    produit choisi.

17
Autres modèles
  • Le modèle en flocon de neige
  • Les tables des dimensions sont normalisées
  • Le modèle de la constellation des faits
  • Une table de faits peut être partagée par
    plusieurs tables de dimension

18
Hiérarchies
  • Hiérarchies de schémas
  • Ordre total ou partiel sur les attributs des
    schémas
  • Décrivent des relations sémantiques entre les
    attributs
  • Exemple Rue lt Ville lt État_ou_Province lt Pays
  • Hiérarchies de groupes
  • Organise les valeurs dattributs ou de dimensions
    en groupes
  • Un ordre total ou partiel peut être défini entre
    les groupes
  • Exemples 045 ? Jeune, 46150 ? Agé ,
    Jeune, Agé ? all(age)

19
Opération Navigation ou Forage
  • Pour obtenir plus de détails sur la signification
    d'un résultat en affinant une dimension ou en
    ajoutant une dimension
  • Exemple
  • Supposons qu'un utilisateur final demande les
    chiffres d'affaires par produit, et s'étonne d'un
    résultat pour un produit donné. Il aura sûrement
    l'envie d'en analyser les raisons. Une solution
    consisterait à ajouter la dimension temps, dans
    l'unité de temps trimestrielle pour trouver une
    variation saisonnière, dans l'unité hebdomadaire
    pour envisager l'effet week-end ou encore la
    dimension magasin pour mettre en évidence un
    effet géographique.

20
Opération Agrégats
  • Pour obtenir moins de détails
  • Élimination dune dimension ou regroupement des
    éléments dune dimension
  • Exemple
  • Ville lt Etat lt Province lt Pays
  • Au lieu de regrouper les données par ville, elles
    sont regroupées par pays

21
Autres opérations
  • Sélection sur une dimension ou plusieurs
    dimensions (tranche du cube)
  • Rotation / pivot du cube
  • Dautres opérations impliquent plus dune table
    des faits

22
Problèmes
  • Supports physiques
  • Peupler lentrepôt
  • Calcul des valeurs de la table des faits
  • Structure creuse
  • La valeur est 0
  • Exemple 300 des 3000 produits sont vendus chaque
    jour
  • Problèmes des clés et des indexes
  • Organisation physique importante du point de vue
    des performances
  • Les tables de dimension sont souvent indexées
    suivant tous leurs champs

23
Exercice
  • Exercice du magasin délectronique

24
Références
  • http//www.grappa.univ-lille3.fr/polys/fouille/
  • J. Han, and M. Kamber. Data Mining Concepts and
    Techniques. Morgan Kaufmann.
Write a Comment
User Comments (0)
About PowerShow.com