Title: Bases de Donn
1Bases de Données
21. BD Quest-ce que cest ?
- Ensemble de données apparentées (même thématique)
- Facilement interrogeable et modifiable par un
langage de haut niveau (proche langue naturelle) - Stocké sur mémoire secondaire (disques)
- Exemples
- Base des véhicules voitures, personnes, liens de
propriétés - Quelles sont les véhicules de M. Dupont ?
- Qui possèdent des véhicules de prix gt 10000 ?
- Base des vins vins, buveurs
- Listes des vins de qualité excellente ?
- Ajouter un abus au buveur Dupont Jules
3Pourquoi faire ?
- Mémoriser des données
- Structurées (voitures, personnes, employés, vins
) - Documents (texte, images, films )
- Retrouver en ligne la bonne donnée au bon moment
- Le salaire de Dupont, sa photo
- Lavoir de votre compte en banque
- Mettre à jour les données variant dans le temps
- Volume de données de plus en plus grands
- Giga, Terra, Péta bases (1015 octets)
- Numériques, Textuelles, Multimédia (images,
films,...) - De plus en plus de données archivées
4Structure des données
- Les données sont structurées et identifiées
- Données élémentaires ex Votre salaire, Votre
note en L1 - Données composées ex Votre CV, vos résultats de
l'année - Identifiant humain ex NSS ou machine P26215
- De plus en plus de données faiblement structurées
- Texte libre, document, Images
- Emergence du semi-structuré avec le Web
- Il faut aussi les stocker et les interroger
- Interrogation approximative type Google
- Google maintient sans doute la plus grande base
du monde - Interrogation par mots-clés
- Interrogation approximative (top 10)
5La hiérarchie des mémoires
Capacité vs Coût Vitesse
Mémoire terciaire
- Un accès disque est environ 100,000 fois plus
lent quun accès mémoire! - ?
- Eviter les accès disques
- grande mémoire principale
- Amortir les accès disques
- placement des données
- Minimiser le nombre daccès disques
- méthodes daccès
Mémoire secondaire
5-10 ms
Mémoire principale (RAM)
80-200 ns
3-10 ns
Cache (SRAM)
2-5 ns
Registres
6Un peu d'histoire
- Années 60
- Récipients logique de données ? fichiers sur
disque - Accès séquentiel puis sur clé
- Lire (Nomf, Article), Ecrire (Nomf, Article)
- Lire (Nomf, Article, Clé), Ecrire (Nomf, article,
Clé) - Années 70
- Avènement des Bases de Données Réseaux (issues
dApollo) - Ensemble de fichiers reliés par des pointeurs
- Langage d'interrogation par navigation
- Années 80
- Avènement des Bases de Données Relationnelles
(BDR) - Relations entre ensemble de données
- Langage d'interrogation par assertion logique
72. BD et Monde réel
- Les données représente des entités (objets) du
monde réel - Nom du type dobjet
- Exemple voiture
- Caractéristiques des objets
- Exemple puissance, couleur marque
- Liens entre objets
- Exemple Pierre possède la voiture 212 BDW 75
- Une BD représente une partie du monde réel
- Entreprise, Application, Univers
8Modélisation du réel
Réel
Modèle conceptuel Indépendant du modèle de données Indépendant du SGBD
Modèle logique Dépendant du modèle de données Indépendant du SGBD Codasyl Relationnel Objet XML
Modèle Physique Dépendant du modèle de données Dépendant du SGBD Organisation physique des données Structures de stockage des données Structures accélératrices (index) Organisation physique des données Structures de stockage des données Structures accélératrices (index) Organisation physique des données Structures de stockage des données Structures accélératrices (index) Organisation physique des données Structures de stockage des données Structures accélératrices (index)
effectue
Médecin
Visite
93. Le transactionnel (OLTP)
- Opérations typiques
- mises à jour ponctuelles de lignes par des
écrans prédéfinis, souvent répétitives, sur les
données les plus récentes - Exemple
- Benchmark TPC-A et TPC-B débit / crédit sur une
base de données bancaire - TPC-A transactionnel et TPC-B avec traitement par
lot - Mesure le nombre de transactions par seconde
(tps) et le coût par tps
10La base TPC-A/B
1
100000
Agences
Comptes
Caissiers
Historique
100
Taille pour 10 terminaux, avec règle d'échelle (
scaling rule)
11La transaction Débit - Crédit
- Begin-Transaction
- Update Account Set Balance Balance Delta
- Where AccountId Aid
- Insert into History (Aid, Tid, Bid, Delta,
TimeStamp) - Update Teller Set Balance Balance Delta
- Where TellerId Tid
- Update Branch Set Balance Balance Delta
- Where TellerId Tid
- End-Transaction.
- 90 doivent avoir un temps de réponse lt 2
secondes - Chaque terminal génère une transaction toute les
10s - Performance Nb transactions commises / Ellapse
time
124. Le décisionnel (OLAP)
- Utilisation des données pour aider à la prise de
décision dans lentreprise - Maintient et prise en compte des versions
historiques (6 mois, un an,) - Requêtes complexes sur toute la base
- Evolution du CA par produit
- Evolution des performances des vendeurs en France
- Que se passe-t-il si on ferme la filiale
française ? - Quid dune campagne de marketing pour vendre des
guimauves ? - Quels prospects cibler ?
13Explosion de l OLAP
- Facteurs économiques technologiques
Introduction DW
14Motivations des entreprises
- Besoin des entreprises
- accéder à toutes les données de lentreprise
- regrouper les informations disséminées
- analyser et prendre des décisions rapidement
(OLAP) - Exemples d'applications concernées
- Grande distribution marketing, maintenance, ...
- produits à succès, modes, habitudes dachat
- préférences par secteurs géographiques
- Bancaire suivi des clients, gestion de
portefeuilles - mailing ciblés pour le marketing
- Télécommunications pannes, fraudes, mobiles,
... - classification des clients, détection fraudes,
fuites de clients
Introduction DW
15Datawarehouse définition
- Entrepôt de données
- Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une
base de données unique, géré dans un
environnement de stockage particulier, aidant à
la prise de décision dans lentreprise. - Trois fonctions essentielles
- collecte de données de bases existantes et
chargement - gestion des données dans lentrepôt
- analyse de données pour la prise de décision
Introduction DW
16Architecture type
17Cohabitation décisionnel-transactionnel
- Les transactions doivent souvent cohabiter avec
des requêtes décisionnelles, traitant un grand
nombre de tuples en lecture - Exemple
- Moyenne des avoir des comptes par agence
- SELECT B.BranchId, AVG(C.Balance)
- FROM Branch B, Account C
- WHERE B.BrachId C.BranchId
- GROUP BY B.BranchId
185. Le Multimédia (GED)
- Archivage et recherche de données multimédias
- Texte (livres, articles, journaux, )
- Images
- Films
- Données géographiques (cartes 2D, 2,5 D)
- Données spatiales (3D)
- Recherche par proximité
- Textes liste de mots-clés (à la Google)
- Images par proximité (couleur, forme, texture
) - Cartes par erctangle englobant, distance, zoom
19Recherche plein texte
- Recherche sur mot-clés
- Recherche de phrase
- Support des mots de liaison
- Recherche sur préfix, suffix, infix
- Normalisation des mots, accents, capitales,
- Recherche par proximité (unité mots)
- Spécification de l'ordre des mots
- Combinaison logic avec AND, OR , NOT
- Recherche par similarité
- Tri des résultats par pertinence
20Recherche dimages
- Histogramme de couleur
- Texture
- Formes et contours
- Similarité
- Exemple trouver toutes les images qui ressemble
au bandit ?
216. Fichiers versus BD
- Fichiers composés darticles
- Gérés par les systèmes opératoires
- Accédés par les applications
- Lus
- Écrits
- Stockés sur disques
- Avec des tables des matières (index)
- Technique connue depuis les années 60
22Systèmes de fichiers
Chirurgie
Comptabilité
Problèmes
Psychiatrie
Consultations
23Format des fichiers
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
- Problèmes
- Difficultés de gestion
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
24Redondance (données)
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
- Redondance de données
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
- Problèmes
- Difficultés de gestion
- Incohérence des données
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
25Interrogations
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
- Redondance de données
- Pas de facilité dinterrogation
- Question ?développement
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
ChiruSoft
ComptaSoft
- Problèmes
- Difficultés de gestion
- Incohérence des données
- Coûts élevés
- Maintenance difficile
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
ConsultSoft
PsychiaSoft
26Pannes ???
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
- Redondance de données
- Pas de facilité dinterrogation
- Question ?développement
- Redondance de code
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
ChiruSoft
ComptaSoft
- Problèmes
- Difficultés de gestion
- Incohérence des données
- Coûts élevés
- Maintenance difficile
- Gestion de pannes ???
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
ConsultSoft
PsychiaSoft
27Partage de données
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
- Redondance de données
- Pas de facilité dinterrogation
- Question ?développement
- Redondance de code
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
ChiruSoft
ComptaSoft
- Problèmes
- Difficultés de gestion
- Incohérence des données
- Coûts élevés
- Maintenance difficile
- Gestion de pannes ???
- Partage des données ???
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
ConsultSoft
PsychiaSoft
28Confidentialité
- Caractéristiques
- Plusieurs applications
- plusieurs formats
- plusieurs langages
- Redondance de données
- Pas de facilité dinterrogation
- Question ?développement
- Redondance de code
Dupont Symptomes y Turlututu sqj Symptomes
y Turlututu sdd Analyses xxx
Dupond Turlututusqjsk Symptom yyyy Analyses
xxxx Turlututudhjsd Analyses xx
ChiruSoft
ComptaSoft
- Problèmes
- Difficultés de gestion
- Incohérence des données
- Coûts élevés
- Maintenance difficile
- Gestion de pannes ???
- Partage des données ???
- Confidentialité ???
Duipont Turlututu sq Symptomyyyy
Analysesxxxx Turlututudhjsd
Duhpon Symptomes yy Analyses
xxxx Symptomes yy
ConsultSoft
PsychiaSoft
297. Lapproche Bases de données
- Modélisation des données
- ? Eliminer la redondance de données
- Centraliser et organiser correctement les
données - Plusieurs niveaux de modélisation
- Outils de conception
- Logiciel Système de Gestion de Bases de
Données - Factorisation des modules de contrôle des
applications - - Interrogation, cohérence, partage, gestion de
pannes, etc - Administration facilitées des données
30Modélisation Relationnelle (1)
Champs, attributs, colonnes
Champs, attributs, colonnes
Champs, attributs, colonnes
Relation ou table
Id-D Nom Prénom
1 Dupont Pierre
2 Durand Paul
3 Masse Jean
. ..
Tuples, lignes ou n-uplets
Tuples, lignes ou n-uplets
Tuples, lignes ou n-uplets
Tuples, lignes ou n-uplets
31Modélisation Relationnelle (2)
Docteurs Docteurs Docteurs
Id-D Nom Prénom
1 Dupont Pierre
2 Durand Paul
3 Masse Jean
. ..
Prescriptions Prescriptions Prescriptions Prescriptions
Id-V Ligne Id-M Posologie
1 1 12 1 par jour
1 2 5 10 gouttes
2 1 8 2 par jour
2 2 12 1 par jour
2 3 3 2 gouttes
. . .
Visites Visites Visites Visites Visites
Id-D Id-P Id-V Date Prix
1 2 1 15 juin 250
1 1 2 12 août 180
2 2 3 13 juillet 350
2 3 4 1 mars 250
Patients Patients Patients Patients
Id-P Nom Prénom Ville
1 Lebeau Jacques Paris
2 Troger Zoe Evry
3 Doe John Paris
4 Perry Paule Valenton
. . . .
Médicaments Médicaments Médicaments
Id-M Nom Description
1 Aspegic 1000 ..
2 Fluisédal ..
3 Mucomyst ..
. .. ..
32Fonctions des SGBD
Système de gestion de bases de données
I- Indépendance Physique
II- Indépendance Logique
X - Standards
IX - Gestion de la confidentialité
III Langage de manipulation
BD
VIII - Concurrence daccès
IV - Gestion des vues
VII - Gestion des pannes
V - Optimisation des questions
VI - Gestion de la cohérence
33Quétudie-t-on en BD ?
- Les modèles de données
- Les méthodes de stockage
- Les langages de requêtes
- Les algorithmes doptimisation de requêtes
- Les algorithmes de contrôles
- Les méthodes de publication de données
- Les architectures de systèmes
- La répartition des données
- La prise en compte du web