Title: Vers une biblioth
1Vers une bibliothèque de RDF structurelle, pour
la détection et la factorisation de sous-graphes
Soutenance de Stage DEA / DESS
2Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes
- Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
3Présentation du stage
- Stage DEA / DESS
- Lieu France Telecom RD Lannion
- Laboratoire DMI/GRI et PSI
- Sujet les graphes comme outils de RDF
- Dans le cadre du projet DocMining
4Le contexte DocMining
- Projet exploratoire labellisé RNTL
- Durée initiale 24 mois
- Objectif "Développer une plate-forme
d'acquisition de documents structurés
hétérogènes" - Les partenaires
- DMI/GRI France Télécom RD
- PSI Université de Rouen
- LORIA Université de Nancy
- L3I Université de La Rochelle
- Département dInformatique, Université de
Fribourg (Suisse)
5Objectifs du stage
- Développer un outil de reconnaissance
structurelle général applicable dans le contexte
DocMining - Reconnaissance de symboles
- Comparaison de données XML
- Existant Lib GraphePSI
- Dédiée initialement à la reconnaissance de
formulaires - Création, manipulation de graphes
- Mesure de similarité entre graphes
- Contribution Aspect sous-graphe
- Détection de sous-graphes
6Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes
- Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
7Concepts et définitions
- Introduction
- Deux aspects principaux
- Modélisation représentation graphique naturelle
- Classification recherche de similarité
8Le graphe comme outil de Modélisation (1)
- Représente un ensemble d'objets, et les relations
entre eux
Objet
relation
9Orienté / Non orienté
Relations unidirectionnelles entre les noeuds
Modélisation un Arc Représentation graphique
une flèche
Graphe Orienté
Relations bidirectionnelles entre les noeuds
Modélisation une Arête Représentation graphique
une trait
Graphe Non Orienté
10Etiquettes et types de Graphes
- Différents types de données associées aux nœuds
et arcs - Symboliques (Caractères, Chaîne de caractères)
- Numériques (Entiers, Réels)
- Complexes attributs multiples
Différents types de graphes
11Types de Graphes (1)
Pas d'attributs associés aux nœuds et arcs
Traduit uniquement la structure de l'objet
modélisé
12Types de Graphes (2)
Arcs pondération numérique (entière ou
réelle) Nœuds pas d'attributs associés
Pondère les relations entre les composantes
3
2
5
13Types de Graphes (3)
- Graphe Relationnel Attribué
Arcs attribut(s) numérique(s) ou/et
symbolique(s) Nœuds attribut(s) numérique(s)
ou/et symbolique(s)
(forme rectangle) (surface 0.6)
Traduit la structure et l'information
véhiculée par les nœuds et par les arcs
(position dessous) (distance 3)
(position dessous) (distance 3)
(forme triangle) (surface 0.2)
Type le plus général
(forme carré) (surface 0.4)
(position gauche) (distance 3)
14Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes
- Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
15L'appariement de graphes (1)
- Déterminer la classe d'un objet inconnu
- Appariement avec une base de formes connues
- Déterminer des correspondances entre graphes qui
préservent la structure
16L'appariement de graphes (2)
- Englobe les concepts suivants
- Isomorphisme de graphes
- Monomorphisme de graphes
- Isomorphisme de sous-graphe vers graphe
- Isomorphisme bidirectionnel de sous-graphe
17Types de morphisme (1)
D
A
4
B
C
1
Mapping
3
4
A
3
B
1
C
2
2
D
18Types de morphisme (2)
C
4
A
1
B
Mapping
3
3
A
1
B
2
C
2
19Types de morphisme (3)
- Isomorphisme sous-graphe vers graphe
C
4
A
1
B
Mapping
3
3
A
1
B
2
C
2
20Types de morphisme (4)
- Isomorphisme bidirectionnel de sous-graphes
C
D
4
A
1
B
Mapping
3
3
A
1
B
2
C
2
21Exact / Inexact
- Exact correspondance stricte entre
nœuds étiquettes identiques - Inexact on autorise une tolérance dans
l'appariement - distance
22Distance d'édition
- Idée compenser les erreurs par des opérations
correctrices - Détermination de la plus petite séquence
d'opérations qui transforme un graphe en l'autre - Opérations d'édition
- substitution, suppression, insertion
- Des coûts associés à chaque opération
23Appariement inexact de graphes
- 2 approches
- Détermination d'une mesure de similarité
- Plus grand sous-graphe commun
- Plus petit supergraphe commun
- Détermination d'une distance d'édition
- Isomorphismes inexacts de graphes
24Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes de
sous-graphes - Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
25Les Méthodes
- Objectif recherche d'isomorphismes de
sous-graphe vers graphe - Situation du problème
Existe-il une injection de Gm vers Gc ie,
existe-il des occurrences de Gm dans Gc
26Classification des méthodes (1)
- Deux critères pour la classification
- Tolérance aux erreursMéthodes exactes /
Méthodes inexactes - Optimalité de la solutionMéthodes optimales /
Méthodes d'optimisation
27Classification des méthodes (2)
- Classification obtenue selon ces critères
- Méthodes exactes
- Méthode optimales
- Méthodes combinatoires
- Méthodes d'optimisation
- Méthodes basées sur la relaxation discrète
- Méthodes inexactes
- Méthode optimales
- Méthodes basées sur algorithme A
- Méthodes d'optimisation
- Méthodes stochastiques
28Les méthodes
- Méthodes exactes
- Méthode optimales
- Méthodes combinatoires
- Méthodes d'optimisation
- Méthodes basées sur la relaxation discrète
- Méthodes inexactes
- Méthode optimales
- Méthodes basées sur algorithme A
- Méthodes d'optimisation
- Méthodes stochastiques
29Arbre de recherche (1)
- Méthodes combinatoires
- Principe représenter les isomorphismes sous
forme d'un arbre - Algorithme itératif backtracking
- Test de tous les appariements possibles
30Arbre de recherche (2)
- Procédure de backtracking
?
4
1
2
I
1,3
1,5
4,3
4,5
II
2,3
2,5
1,3,6
1,5,6
2,3,6
2,5,6
4,3,6
4,5,6
III
31Arbre de recherche (3)
- Procédure d'élagage "Forward Checking"
- Principe tester l'existence d'appariements
futurs consistants
?
4
1
2
I
4,3
4,5
II
4,5,6
III
32Recherche de cliques maximales (2)
(I,2)
(I,4)
Graphe d'association GA A-nœuds Couple de
nœuds appariés A-arcs Relient deux mappings
consistants
(I,1)
une clique max
(II,3)
Mapping
4
I
(III,6)
(II,5)
5
II
6
III
33Les méthodes
- Méthodes exactes
- Méthode optimales
- Méthodes combinatoires
- Méthodes d'optimisation
- Méthodes basées sur la relaxation discrète
- Méthodes inexactes
- Méthode optimales
- Méthodes basées sur algorithme A
- Méthodes d'optimisation
- Méthodes stochastiques
34Relaxation discrète
- Principe
- Affecter toutes les étiquettes valides à chaque
nœud - Supprimer progressivement les appariements qui ne
respectent pas la consistance locale - Inconvénient consistance globale pas
nécessairement vérifiée
35Les méthodes
- Méthodes exactes
- Méthode optimales
- Méthodes combinatoires
- Méthodes d'optimisation
- Méthodes basées sur la relaxation discrète
- Méthodes inexactes
- Méthode optimales
- Méthodes basées sur algorithme A
- Méthodes d'optimisation
- Méthodes stochastiques
36Algorithme A
- Arbre de recherche
- Application d'heuristiques coûts d'édition
fonction d'évaluation
1
2
3
a
b
c
?
Graphe modèle
d
Graphe candidat
3 1
1 3
2 2
e
1,2 6
1,3 6
3,1 6
3,2 4
2,1 8
2,3 4
3,2
2,3
37Les méthodes
- Méthodes exactes
- Méthode optimales
- Méthodes combinatoires
- Méthodes d'optimisation
- Méthodes basées sur la relaxation discrète
- Méthodes inexactes
- Méthode optimales
- Méthodes basées sur algorithme A
- Méthodes d'optimisation
- Méthodes stochastiques
38Méthodes d'optimisation
- Ramener le problème d'appariement à un problème
d'optimisation de fonction - Représentation des graphes sous forme matricielle
- Minimisation d'un critère
- Méthodes recuit simulé, algorithmes génétiques
- Inconvénient pas applicables à tous types de
graphes
39Réseau de Messmer (1)
- Recherche d'isomorphismes exacts et inexacts
- Appariement avec une base de graphes modèles
- Compilation de la base en une structure compacte
- Principe Décomposition des graphes modèles en
sous-graphes
40Réseau de Messmer (2)
41Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes
- Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
42Solution proposée (1)
- Appariement de tous types de graphes
- Détermination de la meilleure solution
- Méthodes optimales
- Détection de sous-graphes
- Méthodes de recherche d'isomorphismes de
sous-graphes
43Solution proposée (2)
- Isomorphisme de sous-graphes
- Exact
- Algorithme d'Ullman
- Algorithme VF
- Algorithme Cliques
- Algorithme Messmer
- Inexact
- Algorithme A
- Algorithme Messmer
44Solution proposée (3)
- Mesure de similarité
- Plus grand sous-graphe commun
- Plus petit supergraphe commun
- Combinaison des deux
- Distance d'édition
45ApplicationReconnaissance de symboles (1)
Chambre
PC pairessur appui
PC paires sur bornes
Image initiale
Symboles à détecter
46ApplicationReconnaissance de symboles (2)
Chambre
Graphes Modèles
PC pairessur appui
PC paires sur bornes
Symboles à détecter
47ApplicationReconnaissance de symboles (3)
48ApplicationReconnaissance de symboles (4)
0 0 1 0 0
0 0 1 0 0
0 0 1 0 0
0 0 1 0 0
0 0 1 0 0
40
49Plan
- Présentation du cadre du stage et du sujet
- Les principaux concepts de la Théorie des Graphes
- L'appariement de graphes
- Les méthodes de recherche d'isomorphismes
- Solution proposée et Intégration à la lib
GraphePSI - Conclusions et perspectives
50Conclusions et perspectives (1)
- Conclusion
- Généricité méthodes optimales
- Méthodes valables sur graphes de taille moyenne
- Outil structurel complémentaire des outils
statistiques - Difficultés
- Non homogénéité des définitions
- Méthodes spécifiques à un type de graphes
- Nécessité de méthodes tolérantes aux erreurs
51Conclusions et perspectives (2)
- Perspectives
- Approfondir l'évaluation des performances
- Constitution d'une base de test
- Recherche de méthodes plus performantes