Title: Modle pour la gnration d'arborescence de fichiers
1Modèle pour la générationd'arborescence de
fichiers
2Motivations
- Etude de l'heuristique d'isomorphisme inexact de
sous-graphe - Paramètres efficaces sur cette famille d'arbres
- Complexité
- Caractérisation de la famille
- Identifier les particularités
- Reproduire des arbres aléatoires
3Sommaire
- Isomorphisme inexact heuristique
- Etude du système de fichiers utilisateurs du
LaBRI - Modèle de générateur
- Résultats
- Perspectives
4Heuristique Auber,Delest, Domenger, Dulucq,
2004
- Identifier des sous-structures qui se
ressemblent
http//evat.labri.fr
5Heuristique Auber,Delest, Domenger, Dulucq,
2004
- Vecteurs de caractéristiques pour chaque sommet
- Caractéristiques structurelles
- Degré
- Taille du sous-arbre
- Nombre de Strahler
- Hauteur
-
- Distance entre les vecteurs (distance
euclidienne)
6- Construction de classes de nuds ?-équivalents
- n,n ? Ci ? d(n,n) gt ? ? n ?? n
1
2
3
5
6
7
4
8
7- Construction de classes de nuds ?-équivalents
- n,n ? Ci ? d(n,n) gt ? ? n ?? n
1
2
3
5
6
7
4
8
8- Construction de classes de nuds ?-équivalents
- n,n ? Ci ? d(n,n) gt ? ? n ?? n
- Problème
- 1er nud 1
- ? ?
-
1
1
3
2
8
4
2
3
5
6
7
4
8
9- Construction de classes de nuds ?-équivalents
- n,n ? Ci ? d(n,n) gt ? ? n ?? n
- Problème
- 1er nud 1
- ? ?
- 1er nud 2
- ? ?
1
1
3
2
8
4
2
3
5
6
7
4
8
1
3
2
8
4
10- Construction de classes de nuds ?-équivalents
- n,n ? Ci ? d(n,n) gt ? ? n ?? n
- Heuristique trier les nuds
- selon leur valeur de Strahler
- décroissante
1
2
3
5
6
7
4
8
11- Prolongation des classes déquivalences
- Si card (F) ? card (F), on prolonge
u
v
..
..
F
F
??
12- Prolongation des classes déquivalences
- Procédure récursive sur les fils prolongés
u
v
..
..
F
F
??
13- Questions
- Clustering dépendant de lordre de considération
des nuds (K-means ? Strahler bon choix ? ) - Choix des paramètres dépend des structures
étudiées, des éléments recherchée (en étude) - Prolongation
- Reconnaissance de motifs fréquents / premier
candidat - Complexité ?
- Conjecture O(n log(n))
14Etude du système de fichiers du LaBRI
- Données
- 1 partition utilisateurs
- 79 utilisateurs
- 2 captures à 4 mois d'intervalle
- Arborescence de 16 à 139 393 éléments
15- Distribution des éléments dans l'arbre
- Loi normale, fonction du niveau de l'arbre
16- Distribution des éléments dans l'arbre
17- Distribution des éléments dans l'arbre
18- Distribution des dossiers dans l'arbre
19 20 21 22- Taux d'activité des répertoires
23Etude du système de fichiers du LaBRI
- Données
- Distribution des éléments dans les niveaux
- Distribution des dossiers dans les niveaux
- Hauteur
- Largeur
- Composition des niveaux
- Taux d'activité des répertoires
24Modèle de générateur
- Basé sur les actions usuelles de l'utilisateur
- Ajout de fichiers
- Création de répertoires (nouvelle thématique)
- Réorganisation de répertoires
- Suppression de fichiers
- Comportement maniaque, organisé, normal ,
désorganisé, ..., bizarre
25Modèle de générateur
- Algorithme pour un utilisateur
- Ajout d'un fichier
- Choix du niveau n d'insertion
- du fichier
- Choix du parent dans le
- niveau n-1
26Modèle de générateur
- L'ajout engendre-t-il la création d'un dossier ?
- Niveau ne contient
- pas assez de répertoires
- On n'autorise l'allongement
- de l'arbre (hauteur) que si le
- nombre d'éléments le permet
27Modèle de générateur
- Réorganisation d'un dossier
- Evènement occasionnel (dépend du comportement)
- Choix du niveau pour
- lequel on va réorganiser
- Choix du répertoire dans le niveau inférieur
- -gt dépend du nombre d'éléments dans le répertoire
28Modèle de générateur
- Réorganisation d'un dossier
- Tirage du nombre de fichiers à déplacer (au moins
1/3 des fichiers contenus dans le répertoire) - Tirage du nombre de dossiers nouvellement créés
(entre 2 et 6) - Placement d'au moins 2 fichiers par nouveau
dossier - Déplacement du reste aléatoirement uniformément
dans les nouveaux dossiers
29Modèle de générateur
- Suppression d'un fichier
- Evènement occasionnel (dépend du comportement de
l'utilisateur) - Choix du niveau
- Niveau peu profond ( gauss(2,3) )
- Si le niveau contient un nombre raisonnable de
fichiers (10 dans le modèle) - Supprime un fichier (aléatoire uniforme)
30Modèle de générateur
- Ajout fichier
- Fichier dans nouveau thème ?
- Ajout de dossier
- Réorganisation d'un répertoire ?
- Création de nouveaux répertoires
- Déplacement de fichiers
- Suppression d'un fichier ?
31Résultats
- Etude préliminaire sur une sous-famille
d'utilisateurs - Entre 5 000 et 10 000 fichiers
- 12 utilisateurs concernés
- Génération d'arbres
- Aucune réorganisation/suppression (utilisateur
moyen) - Faible réorganisation/suppression (organisé)
- Forte réorganisation/suppression (très organisé)
32Résultats
- Aucune réorganisation/suppression (utilisateur
moyen)
33Résultats
- Aucune réorganisation/suppression (utilisateur
moyen)
34Résultats
- Aucune réorganisation/suppression (utilisateur
moyen)
35Résultats
- Faible réorganisation/suppression (organisé)
36Résultats
- Faible réorganisation/suppression (organisé)
37Résultats
- Faible réorganisation/suppression (organisé)
38Résultats
- Forte réorganisation/suppression (très organisé)
39Résultats
- Forte réorganisation/suppression (très organisé)
40Résultats
- Forte réorganisation/suppression (très organisé)
41Résultats
42Résultats
- Forte réorganisation/suppression (très organisé)
43Résultats
- Forte réorganisation/suppression (très organisé)
44Résultats
- Recherche des familles d'utilisateurs
-
- Identifier des groupes
- Paramètres qui sont spécifiques à un comportement
- Proportion d'utilisateur pour chaque comportement
45Bibliographie
Auber, Delest, Domenger, Dulucq, 2004
Efficient drawing of RNA secondary structure,
2004 Kleinberg, Kumar, Raghavan, Rajagopalan,
Tomkins, 1999 The Web a a graph measurements,
models, and methods, 1999