Extension%20des%20bases%20de%20donn - PowerPoint PPT Presentation

About This Presentation
Title:

Extension%20des%20bases%20de%20donn

Description:

Exemple de requ tes atomiques sur les motifs et les donn es : ... Requ tes : formule logique de requ tes atomiques. m : motifs cibles d terminer. D1, D2 : ... – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 25
Provided by: avau
Category:

less

Transcript and Presenter's Notes

Title: Extension%20des%20bases%20de%20donn


1
Extension des bases de données inductives pour
la découverte de chroniques
Alexandre Vautier, René Quiniou et Marie-Odile
Cordier
2
Une petite illustration
sur 2 séquences dévènements
D1
B
B
A
B
A
A
B
B
A
A
D2
A
A
B
A
B
A
A
B
  • Trouver des motifs temporels
  • Fréquents dans D1 (selon un seuil de 3)
  • Non fréquents dans D2 (selon un seuil de 2)
  • Motifs
  • Évènements ? 5 dans D1 et 5 dans D2 5
    dans D1 et 3 dans D2
  • Ensemble dévènements ? ,
  • Contrainte temporelle intervalle dmin, dmax

A
B
)
A
B
?
3
Introduction
  • Fouille de données temporelles
  • Complexité due à lintroduction du temps
    numérique
  • Base de données inductives
  • Un cadre formel de la fouille de données
  • intégrer le temps dans une BDI

4
Plan
  • Introduction
  • Base de données inductive et chroniques
  • Relation dordre - fréquence
  • Traitement dune requête
  • Algorithme de Mitchell
  • FACE un outil de fouille de données temporelles

5
Base de données inductives
  • Une formalisation de la fouille de données
  • Donne un cadre au processus dextraction de
    connaissances
  • Une base de données et de motifs
  • La fouille de données est vue comme un processus
    dextraction par requête
  • Exemple de requêtes atomiques sur les motifs et
    les données
  • Fréquence(m,D1) gt Tmin
  • Fréquence(m,D2) lt Tmax
  • Sous-motif(m,M1)
  • Sous-motif(M1,m)
  • Requêtes formule logique de requêtes atomiques

6
Processus dExtraction des connaissances dans les
Bases de données
Volume de données ? Connaissances
Interprétation/ Evaluation
Fouille de données
Transformation
Connaissances
Prétraitement
Modèles
Sélection
Données transformées
Données prétraitées
Données sélectionnées
Entrepôt de données
Etapes dun processus ECD Fayyad et al. 1996
7
Les données séquences dévènements Les motifs
chroniques
  • Séquence dévènements liste dévènements
    ordonnés
  • Chronique ensemble dévènements contraints
    temporellement
  • Évènements de même type
  • Contrainte temporelle dmin,dmax dmin,dmax 2 Z

C,t3
C,t34
A,t0
B,t1
B,t2
8
Relation de généralité
  • C plus générale que C (C v C) ,Il existe un
    sous-graphe de C
  • tel que toutes les contraintes de C sont égales
    ou plus larges que celles de ce sous-graphe.

C
C
9
Requêtes sur la fréquence
  • freq(m,D) T
  • Fréquence des motifs m inférieure ou égale à T
  • freq(m,D) T
  • Fréquence des motifs m supérieure ou égale à T
  • Deux ensembles de séquences P et N
  • (9 L 2 P freq(m,D) TD) Æ (8 L 2 N freq(m,L)
    TD)
  • on continue avec deux séquences

10
Fréquence et relation dordre
  • Contrainte monotone
  • Ex freq(m,D) T
  • C 2 m Æ C v C ) C 2 m
  • Freq(C) Freq(C)
  • Contrainte anti-monotone
  • Ex freq(m,D) T
  • C 2 m Æ C v C ) C 2 m
  • Freq(C) Freq(C)

11
Fréquence dune chronique
  • IC(D) i1, i2, i3, i4, i5, i6
  • Critère de reconnaissance Q
  • E µ IC(D), Q(E) ) Freq(C,D) E
  • Exemple de critère
  • Qdt critère dinstances disjointes au plus tôt
  • E i1, i3, i6 ) Freq(C,D) 3

E est unique (Anti)monotonie des contraintes sur
la fréquence
12
Traitement dune requête
  • freq(m,D1) T1 Æ freq(m,D2) T2

T
Maximalement général
Le calcul des bords suffit
Maximalement spécifique
?
Espace des versions
13
Calcul des bords de lespace des versions
  • freq(m,D1) T1 Æ freq(m,D2) lt T2
  • Algorithme de Mitchell

freq(m2,D2) T2

freq(m,D2) lt T2 Æ freq(m,D1) T1
freq(m1,D1) T1
Utilisation des Chroniques Maximalement
spécifiques et Fréquentes (CMFs)
14
FACEFrequency Analyser for Chronicle Extraction
Dousson Thang Vu Duong
Chroniques représentatives
Séquence dévènements
FACE
  • Principe
  • Freq(m,D) T
  • Contrainte Anti-monotone
  • Une chronique peut être fréquente si toutes ses
    sous-chroniques sont fréquentes.

15
Algorithme de FACE
n1
Génération de chroniques de taille n
nn 1
Aucune chronique fréquente
16
FACEUn outil de fouille de données
  • Optimisé pour la génération dun nombre minimum
    de chroniques
  • Synthèse efficace ? recherche des CMFs
  • Néglige les contraintes temporelles
  • Un extracteur complet et correct dinstances !
  • À partir des instances reconnues on peut
    retrouver les chroniques maximalement spécifiques
    et fréquentes (CMFs)

17
Adaptation de lalgorithme FACE
Reconnaissance dans la séquence dévènements
n1
Génération de chroniques de taille n
Raffinage des chroniques fréquentes
Spécialisation des Contraintes temporelles
nn 1
Aucune chronique fréquente
18
Raffinage pour résultats
  • , Recherche des motifs fréquents sur des données
    numériques
  • Très coûteux en temps, en espace
  • Introduction dun nouveau critère dintérêt la
    densité
  • Meilleure caractérisation des chroniques
    intéressantes
  • Réduction du nombre de CMFs
  • Utilisation et adaptation dalgorithmes de
    clustering
  • Basé sur la densité, algorithmes hiérarchiques

19
Conclusion
  • Extension dune BDI à la recherche de motifs
    intégrant une notion temporelle
  • Nécessité de calculer seulement les CMFs de
    chaque séquence dévènements
  • Formalisation de la notion de chronique
  • Relation dordre
  • Fréquence, critère de reconnaissance
  • Utilisation dun outil de fouille de données
    existant FACE
  • Les BDIs une formidable façon de structurer
  • la fouille de données

20
Perspectives
  • Poursuivre la réalisation des bases de données
    inductives étendues au temps
  • Utilisation dautres mesures dintérêt
  • Autre que la fréquence
  • Permettre à lutilisateur de spécifier le niveau
    de complétude désirée
  • Application dans le domaine de la détection
    dintrusions dans les réseaux de
    télécommunications

21
pour la découverte de chroniques
Extension des BDIs
Alexandre Vautier, René Quiniou, Marie-Odile
Cordier
22
Raffinage pour résultats
  • Une instance , un point
  • Une chronique , un hypercube
  • Rechercher les hypercubes minimaux englobant au
    moins T points
  • Très coûteux
  • En temps
  • En espace
  • Recherche des motifs fréquents sur des données
    numériques

23
Densité des CMFs (1)
Une CMF non dense
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Une CMF dense
x
x
x
x
x
x
x
x
x
x
x
x
x
x
T 4
  • Chronique intéressante
  • Fréquente
  • Maximalement spécifique
  • dense

24
Base de données inductive (2)
  • Son origine Imielinski et Mannila, 1996
  • Base de données gérer les applications de
    stockage des données
  • BDI gérer les applications de découverte de
    connaissances
  • Le temps attribut complexe à gérer
  • Apport des BDIs leur formalisme
Write a Comment
User Comments (0)
About PowerShow.com