Title: Extension%20des%20bases%20de%20donn
1Extension des bases de données inductives pour
la découverte de chroniques
Alexandre Vautier, René Quiniou et Marie-Odile
Cordier
2Une petite illustration
sur 2 séquences dévènements
D1
B
B
A
B
A
A
B
B
A
A
D2
A
A
B
A
B
A
A
B
- Trouver des motifs temporels
- Fréquents dans D1 (selon un seuil de 3)
- Non fréquents dans D2 (selon un seuil de 2)
- Motifs
- Évènements ? 5 dans D1 et 5 dans D2 5
dans D1 et 3 dans D2 - Ensemble dévènements ? ,
- Contrainte temporelle intervalle dmin, dmax
A
B
)
A
B
?
3Introduction
- Fouille de données temporelles
- Complexité due à lintroduction du temps
numérique - Base de données inductives
- Un cadre formel de la fouille de données
-
- intégrer le temps dans une BDI
4Plan
- Introduction
- Base de données inductive et chroniques
- Relation dordre - fréquence
- Traitement dune requête
- Algorithme de Mitchell
- FACE un outil de fouille de données temporelles
5Base de données inductives
- Une formalisation de la fouille de données
- Donne un cadre au processus dextraction de
connaissances - Une base de données et de motifs
- La fouille de données est vue comme un processus
dextraction par requête - Exemple de requêtes atomiques sur les motifs et
les données - Fréquence(m,D1) gt Tmin
- Fréquence(m,D2) lt Tmax
- Sous-motif(m,M1)
- Sous-motif(M1,m)
- Requêtes formule logique de requêtes atomiques
6Processus dExtraction des connaissances dans les
Bases de données
Volume de données ? Connaissances
Interprétation/ Evaluation
Fouille de données
Transformation
Connaissances
Prétraitement
Modèles
Sélection
Données transformées
Données prétraitées
Données sélectionnées
Entrepôt de données
Etapes dun processus ECD Fayyad et al. 1996
7Les données séquences dévènements Les motifs
chroniques
- Séquence dévènements liste dévènements
ordonnés - Chronique ensemble dévènements contraints
temporellement - Évènements de même type
- Contrainte temporelle dmin,dmax dmin,dmax 2 Z
C,t3
C,t34
A,t0
B,t1
B,t2
8Relation de généralité
- C plus générale que C (C v C) ,Il existe un
sous-graphe de C - tel que toutes les contraintes de C sont égales
ou plus larges que celles de ce sous-graphe.
C
C
9Requêtes sur la fréquence
- freq(m,D) T
- Fréquence des motifs m inférieure ou égale à T
- freq(m,D) T
- Fréquence des motifs m supérieure ou égale à T
- Deux ensembles de séquences P et N
- (9 L 2 P freq(m,D) TD) Æ (8 L 2 N freq(m,L)
TD) - on continue avec deux séquences
10Fréquence et relation dordre
- Contrainte monotone
- Ex freq(m,D) T
- C 2 m Æ C v C ) C 2 m
- Freq(C) Freq(C)
- Contrainte anti-monotone
- Ex freq(m,D) T
- C 2 m Æ C v C ) C 2 m
- Freq(C) Freq(C)
11Fréquence dune chronique
- IC(D) i1, i2, i3, i4, i5, i6
- Critère de reconnaissance Q
- E µ IC(D), Q(E) ) Freq(C,D) E
- Exemple de critère
- Qdt critère dinstances disjointes au plus tôt
- E i1, i3, i6 ) Freq(C,D) 3
E est unique (Anti)monotonie des contraintes sur
la fréquence
12Traitement dune requête
- freq(m,D1) T1 Æ freq(m,D2) T2
T
Maximalement général
Le calcul des bords suffit
Maximalement spécifique
?
Espace des versions
13Calcul des bords de lespace des versions
- freq(m,D1) T1 Æ freq(m,D2) lt T2
- Algorithme de Mitchell
freq(m2,D2) T2
freq(m,D2) lt T2 Æ freq(m,D1) T1
freq(m1,D1) T1
Utilisation des Chroniques Maximalement
spécifiques et Fréquentes (CMFs)
14FACEFrequency Analyser for Chronicle Extraction
Dousson Thang Vu Duong
Chroniques représentatives
Séquence dévènements
FACE
- Principe
- Freq(m,D) T
- Contrainte Anti-monotone
- Une chronique peut être fréquente si toutes ses
sous-chroniques sont fréquentes.
15Algorithme de FACE
n1
Génération de chroniques de taille n
nn 1
Aucune chronique fréquente
16FACEUn outil de fouille de données
- Optimisé pour la génération dun nombre minimum
de chroniques - Synthèse efficace ? recherche des CMFs
- Néglige les contraintes temporelles
- Un extracteur complet et correct dinstances !
- À partir des instances reconnues on peut
retrouver les chroniques maximalement spécifiques
et fréquentes (CMFs)
17Adaptation de lalgorithme FACE
Reconnaissance dans la séquence dévènements
n1
Génération de chroniques de taille n
Raffinage des chroniques fréquentes
Spécialisation des Contraintes temporelles
nn 1
Aucune chronique fréquente
18Raffinage pour résultats
- , Recherche des motifs fréquents sur des données
numériques - Très coûteux en temps, en espace
- Introduction dun nouveau critère dintérêt la
densité - Meilleure caractérisation des chroniques
intéressantes - Réduction du nombre de CMFs
- Utilisation et adaptation dalgorithmes de
clustering - Basé sur la densité, algorithmes hiérarchiques
19Conclusion
- Extension dune BDI à la recherche de motifs
intégrant une notion temporelle - Nécessité de calculer seulement les CMFs de
chaque séquence dévènements - Formalisation de la notion de chronique
- Relation dordre
- Fréquence, critère de reconnaissance
- Utilisation dun outil de fouille de données
existant FACE - Les BDIs une formidable façon de structurer
- la fouille de données
20Perspectives
- Poursuivre la réalisation des bases de données
inductives étendues au temps - Utilisation dautres mesures dintérêt
- Autre que la fréquence
- Permettre à lutilisateur de spécifier le niveau
de complétude désirée - Application dans le domaine de la détection
dintrusions dans les réseaux de
télécommunications
21pour la découverte de chroniques
Extension des BDIs
Alexandre Vautier, René Quiniou, Marie-Odile
Cordier
22Raffinage pour résultats
- Une instance , un point
- Une chronique , un hypercube
- Rechercher les hypercubes minimaux englobant au
moins T points
- Très coûteux
- En temps
- En espace
- Recherche des motifs fréquents sur des données
numériques
23Densité des CMFs (1)
Une CMF non dense
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Une CMF dense
x
x
x
x
x
x
x
x
x
x
x
x
x
x
T 4
- Chronique intéressante
- Fréquente
- Maximalement spécifique
- dense
24Base de données inductive (2)
- Son origine Imielinski et Mannila, 1996
- Base de données gérer les applications de
stockage des données - BDI gérer les applications de découverte de
connaissances - Le temps attribut complexe à gérer
- Apport des BDIs leur formalisme