Title: TRAABILIT DANS LES BASES DE DONNES HIPPOCRATIQUES
1TRAÇABILITÉ DANS LES BASES DE DONNÉES
HIPPOCRATIQUES
- Présenté par
- Sonia GUEHIS
- Encadré par
- Mr Philippe PUCHERAL
- Mr Luc BOUGANIM
15/09/2005
2PLAN
- Contexte Général
- Bases de Données Hippocratiques et audit de
conformité - Analyse dune solution de traçabilité des données
personnelles - Objectifs
- Algorithme et optimisations
- Résultats
-
- Conclusion Perspectives
- Bibliographie
3CONTEXTE
Contexte
- Une évolution exponentielle des technologies en
réseau et des techniques de stockage et de
processing. - Accroissement de la collecte et de la divulgation
des données personnelles. - Émergence dun intérêt pour la privacité des
données personnelles - Privacité Le droit de déterminer pourquoi,
quand, comment et par qui les données
personnelles sont communiquées à autrui. - Objectif Doter la personne de moyens de
contrôle individuels de laccès et de lusage de
ses données personnelles
4Les Bases de Données Hippocratiques
Etat de lArt
- Introduites et définies en 2002 par léquipe
dAgrawal 1 , - Architecture des bases de données mettant en
place la préservation de la privacité des données
personnelles. - Inspirées du Serment dHippocrate 6
- ..Whatever I see or hear, professionally or
privately, which ought not to be divulged, I will
keep secret and tell no one - Basées sur dix principes
- Spécification des objectifs, Consentement,
Limitation de collecte, Limitation dusage,
Limitation de divulgation, Limitation de
conservation, Exactitude, Sûreté, Ouverture,
Conformité .
5LAudit de la Conformité dans les BDH
Etat de lArt
- Lauditeur formule une expression daudit (A).
- Une analyse statique sur les fichiers logs gt
Identification des requêtes candidates. - Reconstitution, sous forme de vue, de létat de
la base au moment de lexécution de la requête
candidate. - (AQ) confrontées aux backlogs gt les requêtes
suspectes.
6Exemple(1)
Etat de lArt
- BD
- Customer (cid, name, address, phone, zip,
contact) - Treatment (pcid, date, rcid, did, disease,
duration) - Doctor (did, name)
- A
- audit disease
- from Customer c, Treatment t
- where c.cid t.pcid and c.zip 95120
- Q
- select address
- from Customer c, Treatment t
- where c.cidt.pcid and t.diseasediabetes
- Un malade diabétique habitant le 95120 existe.
Cand(Q,A)
Susp(Q,A) !!!!!!
7Objectifs
Analyse dune Solution de Traçabilité des
Données Personnelles
8MOTIVATIONS
Objectifs
Si je ne fais pas confiance au système, comment
faire reposer laudit sur les logs et les
primitives contrôlés par le système?
Pourquoi auditer la conformité dun système
auquel je fais confiance ?
9OBJECTIFS
Objectifs
- Tracer ses données personnelles
- Interroger le système sur les requêtes ayant
accédé à un certain type dinformations, les
utilisateurs les ayant émises, ainsi que leurs
dates dexécution sur la base. - Processus prévu dans les législations relatives à
la protection des données personnelles - La conformité du système nest pas mise en cause,
- La confiance dans le système est supposée être
totale, - Contexte détude
- Les Smart Object Hippocratiques Objets
intelligents dotés dune puce, collectant et
gérant des données personnelles.
10Cadre dEtude
Objectifs
- Le contexte Smart Object Hippocratique impose
des contraintes sur - Les temps dexécution
- Le volume des données sauvegardées
- La spécification des données à tracer peut se
faire - Au moment du lancement du processus de trace
- Les attributs à tracer sont définis au préalable
- Les attributs et les patterns (attributs sur
lesquels portent les conditions dans la trace)
sont spécifiés au préalable - Les conditions dans la trace peuvent être
spécifiées par rapport - Aux valeurs finales de la base
- Aux valeurs contenues dans la base au moment de
lexécution des requêtes candidates
11Processus de Traçabilité
Algorithme optimisations
- 1-Phase de Prétraitement
- Journalisation de certaines requêtes
- Garder une trace de certaines versions de données
- 2- Phase didentification des requêtes suspectes
- Identification des requêtes candidates
- Évaluation des requêtes candidates et distinction
des requêtes suspectes. -
12Minimisation du Volume de Stockage
Algorithme optimisations
13Minimisation du temps de recherche des requêtes
suspectes
Algorithme optimisations
- Éviter la phase dévaluation de la requête
0 10.. 200 210 . 300 2000.
4000 10000
Associer à la requête Q le nombre binaire
1000010001000000000
14 TABLEAU RECAPITULATIF
Algorithme optimisations
15Résultats
Résultats
- Prototype mis en place pour le cas où les
attributs et les patterns sont connus davance. - Les conditions de trace sont exprimées sur des
valeurs existantes au moment de lexécution de la
requête candidate. - Sur 1000 requêtes, émises sur une table de 100
tuples, loguées candidates - 40 ont été évaluées et jugées suspectes,
- Les 960 restantes, ont été reconnues non
suspectes sans évaluation.
16Conclusion Perspectives
Conclusion
- Analyse dune solution de traçabilité dans un
contexte Smart Object Hippocratique. - Définitions des optimisations possibles pour les
différentes variantes. - Prototype dune solution de traçabilité dans le
cas où les attributs et les patterns sont
spécifiés au préalable. - Des résultats encourageants ont été obtenus.
- Des mesures de performance comme le surcoût de
traitement doivent être élaborer.
17Bibilographie
- 1 Hippocratic Databses
- (Rakesh Agrawal, Jerry Kiernan, Ramakrishnan
Srikant, Yirong Xu) VLDB China 2002 - 2 Implementing P3P Using Database Technology
- (Rakesh Agrawal, Jerry Kiernan, Ramakrishnan
Srikant, Yirong Xu) Conference on Data
Engineering, Bangalore, India, March 2003. - 3 Auditing Compliance with a Hicppocratic
Database - (Rakesh Agrawal, Roberto Bayardo, Christos
Faloustos, Jerry Kiernan, Ralf Rantzau,
Ramakrishnan Srikant) VLDB 2004 Canada - 4 Limiting Disclosure in Hippocratic Database
- (Kristen Lefevre, Rakesh Agrawal, Vuk Ercegovac,
Raghu Ramakristhnan, Yirong Xu, David DeWitt)
VLDB 2004 Canada -
- 5 Managing Healthcare Data Hippocratcally
- (Rakesh Agrawal, Ameet Kini, Kristen LeFevre, Amy
Wang, Yirong Xu, Diana Zhou) Sigmod 2004 - 6 http//www.med.umich.edu/irbmed/ethics/hippocr
atic/hippocratic.html - 7 S. Gançarski, G. Jomier, and M. Zamfiroiu, A
Framework for the Manipulation of a Multiversion
Database. In Workshop Proc. of Database and
Expert Systems Applications Conference (DEXA'95),
Londres (U.K.), pages 247--256, 1995.
18Méta Données
Structures de données algorithme
- Table Bin (id, valeur)
- Table Last (id, id_log, last_insert, last_updat,
last_delete) - Table Log (id, request, user, date)
- Attribut_candidat(id, id_log, table, attribut)
- Pattern (id, id_attr_cand, pattern, valeur)
- Table Update (id, num_tuple, num_attr,valeur)
- Table Delete (id, num_tuple, num_attr,valeur)
19Algorithme de Trace
Attribut_candidat
Log
20Algorithme de Trace
21LAudit de la Conformité dans les BDH
Etat de lArt
- Une plateforme daudit de la conformité du
système par rapport aux directives de privacité. - Définitions
- Tuple indispensable ind(t,Q)
- t est indispensable au calcul de Q si son
omission produit une différence. - Requête candidate cand(Q,A)
- Q est candidate à A si Q accède à toutes les
colonnes que A spécifie dans son audit liste. - Requête suspecte susp(Q,A)
- Q requête candidate est suspecte vis-à-vis de A
si Q et A partagent un tuple
indispensable.