Title: Indexation et recherche d
1FRAGRANCES
Filtrage, Recherche et Annotations dans des
Graphes dInteraction Sociaux
Programme CONTINT de l'Agence Nationale de la
Recherche (ANR)? ANR-08-CORD-008 Paris, le 14
juin 2010
1
2Plan
- Description du consortium
- Objectif du projet et présentation des 4 taches
- Dates importantes et planning
- Aspects scientifiques
- Réalisation du consortium FRAGRANCES
- Réalisation de chaque partenaire dans FRAGRANCES
- Synthèse des résultats
- Livrables
- Diffusion et valorisation
- Perspectives
- Aspects non-scientifiques
2
3Consortium FRAGRANCES
- Université Pierre et Marie Curie-Paris 6,
Laboratoire dInformatique ( LIP6) - l'Université Joseph Fourier, Laboratoire
dInformatique de Grenoble (LIG) - Laboratoire TIMC-IMAG de Grenoble (TIM-C)
- Exalead
- Xerox Research Centre Europe (XRCE)
Coordonnateur XRCE (Boris Chidlovskii)
http//lists.partners.xrce.xerox.com/mailman/list
info/fragrances-project
LIP6 LIG TIM-C EXALEAD XRCE
Sylvain Lamprier Eric Gaussier Gilles Bisson Gregory Grefenstette Jean-Michel Renders
Patrick Gallinari Philippe Mulhem Benoit Lemaire Hugo Zanghi Boris Chidlovskii
Thierry Artieres Ali Mustafa Qamar Fawad Hussain Stéphane Clinchant
Ludovic Denoyer Clément Grimal
3
4Objectif du projet et présentation des 4 taches
5Objectif général
- Proposer de nouvelles méthodes daccès à
linformation documentaire dans un contexte
relationnel et communautaire - .
5
6Principaux objectifs scientifiques
- Développer dalgorithmes et de modèles pour la
découverte de relations sur les données
sémantiques et communautaires - Déploiement de ces algorithmes sur des problèmes
à large échelle - Intégration des méthodes dans des applications en
vraie grandeur - Validation quantitative et qualitative des
méthodes développées
6
7Principaux objectifs technologiques
- La convergence de recherche dinformation et des
outils collaboratifs dans les réseaux sociaux - La validation des sources et des contenus dans
lapplication dorganisation documentaire
collaborative (annotation, classement et
classification) - Le déploiement de ces deux applications en
situation réelle - Leur validation et leur appropriation par des
utilisateurs.
7
8Problèmes et défis abordés (1/2)?
- Recherche dinformation en contexte social
- 4 scenarios de la recherche dinformation dans un
contexte social - Identification de communautés au sein dun grand
ensemble dutilisateurs - Filtrage d'information dans les réseaux sociaux
- Exploitation simultanée de des fonctionnalités
moteurs de recherche et des réseaux sociaux
dutilisateurs en Recherche dInformation - Annotations et classement de documents multimédia
pour plusieurs communautés dutilisateurs
8
9Problèmes et défis abordés (2/2)?
- Les aspects formels et algorithmiques
- Principales directions de recherche envisagées
- Les modèles à variables latentes
- Les modèles de propagation dans les réseaux bases
sur linférence collective - Les méthodes algébriques et à noyaux pour la
décomposition spectrale, la factorisation et la
réduction de dimension - Les méthodes algébriques de co-classification
9
10Les 4 taches du projet
- Ce projet contient 4 taches principales
- WP1 Modes de représentation des informations et
des connaissances - WP2 Algorithmes pour la fouille de données dans
les réseaux de contenu - WP3 Implémentation et déploiement pour deux
applications cibles - WP4 Validation
10
11WP1
- Modes de représentation des informations et des
connaissances - Responsable LIG
- Participants LIP6, TIMC-IMAG, XRCE
- Objectif proposer un ou plusieurs cadres
formels pour représenter les problèmes qui
sous-tendent les scénarios envisagés - WP1.1 Etat de lart sur laccès à linformation
dans des graphes de contenu - WP1.2 Etablir de cadres formels permettant la
description des graphes de contenu et le
développement dalgorithmes dédiés à leur analyse
11
12WP2
- Algorithmes pour la fouille de données dans les
réseaux de contenu - Responsable LIP6
- Participants LIG, TIMC-IMAG, XRCE, Exalead
- Objectif développer trois grandes familles
dalgorithmes pour la fouille de données dans les
réseaux de contenu et les réseaux sociaux - WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu - WP2.2 Développer dalgorithmes pour la fouille
dans les réseaux de contenu suivant les trois
grandes classes de familles
12
13WP3
- Implémenation et déploiement pour deux
applications cibles - Responsable XRCE
- Participants LIG, TIMC-IMAG, LIP6, Exalead
- Objectif déployer et dadapter une partie des
algorithmes dans le cadre de deux applications à
vocation industrielle - WP3.1 Etablir des spécifications du premier
prototype de lapplication Exalead - WP3.2 Etablissement des spécifications du
premier prototype de lapplication XRCE - WP3.3 et WP 3.4 Implémentation des premiers
prototypes
13
14WP4
- Validation
- Responsable Exalead
- Participants XRCE, LIG, LIP6
- Objectif valider expérimentalement et sur le
terrain les algorithmes développés en WP2 et les
applications développées en WP3 - WP4.1 Collecte de données pour les deux
applications cibles - WP4.2 Sélection des benchmarks académique et
évaluations quantitatives - WP4.3 Expériences avec des utilisateurs et
évaluation qualitative
14
15Dates importantes et planning
16Dates importantes
- T0 officiel Février 2009
- Notification juin 2009
- Versement septembre 2009 -gt mars 2010
- Début effectif du projet
- T0 septembre 2009
- Le projet a donc aujourdhui 9 mois de travail
effectif - 3 réunions ont été tenues
- Tous les partenaires ont participé à toutes les
réunions
16
17Explication du planning des livrables
- A T06
- WP1.1 Etat de lart sur laccès à linformation
dans des graphes de contenu - WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu - A T012
- WP3.1 Spécifications du premier prototype de
lapplication Exalead - WP3.2 Spécifications du premier prototype de
lapplication dorganisation documentaire
collaborative XRCE
17
18Explication du planning des livrables
- A T018
- WP1.2 Etablissement de cadres formes (Rapport,
LIG) - WP2.2 Algorithmes (Rapport Articles
scientifiques, LIP6) - WP4.1 Collecte des données (Rapport, Exalead)
- WP4.2 Benchmarks académiques (Rapport, LIP6)
18
19Les livrables dans le planning
T06 T06 T06
WP1.1 WP2.1 Rapport Etat de lart sur laccès à linformation dans des graphes de contenu et sur les algorithmes pour les réseaux de contenu Livré début 2010
T012 T012 T012
WP3.1 Spécifications du premier prototype de lapplication Exalead Livré mi-2010
WP3.2 Spécifications du premier prototype de lapplication Xerox Livré mi-2010
19
20Aspects scientifiques et technologiques
21Résumé des réalisations de chaque partenaire dans
FRANGANCES
22LIP6 dans Fragrances(1)
- Etat de lart Tâche 2
- Classification collective dans les réseaux
sociaux - Modèles relationnels
- Inférence collective
- Méthodes régularisées
- Contributions
- Annotation Images méthode régularisée
mono-relationnel - ICWSM 2010, CORIA 2010 - Annotation Images multilabel multi-relations
Asonam 2010 - Prediction Liens Tenseurs Reiso 2010
23Image annotation méthode régularisée
mono-relationnel Problématique
Le LIP6 dans Fragrances(2)
- Contexte transductif généraliser un étiquetage
partiel dans le réseau social - Analyser importance des relations implicites
(contenu) et explicites (sociales)
24Le LIP6 dans Fragrances(3)
- Modèle proposé
- Modèle basé sur deux idées clefs
- Il ordonne correctement les étiquettes des images
étiquetées - Deux images connectées par une relation auront
tendance à avoir les mêmes scores (Hypothèse de
régularité) - Exploite
- Contenu
- Relations
25Résultats 3 corpus issus de Flickr
26Le LIP6 dans Fragrances (4)
- Annotation dimages par classification collective
- Modèle pour lannotation dimage qui étend les
méthodes de classification collective - Complexité plus faible que les méthodes
transductives - Prise en compte de relations multiples
- Tests sur données Flickr
- Première méthode dannotation par prise en compte
de relations multiples - Méthodes tensorielles pour la classification de
liens - Problématique générale
- détection de relations dans un réseau social
- Problématique générique avec de nombreuses
applications - Détection de liens multiples
- Formulation du problème sous forme tensorielle
- Prise en compte simultanée de relations multiples
- Algorithme dapprentissage
- Tests sur 3 ensembles de données et comparaisons
- Première méthode de prédiction de liens multiples
26
27LIG dans Fragrances (1)
- Nouvelles méthodes proposées
- WP1 Modèles de représentation des informations
et des connaissances - Collaboration (LIG/XRCE) sur la modélisation du
phénomène de rafale, appelé burstiness dans la
communauté texte et preferential attachment dans
la communauté réseau - Définition formelle de la notion de rafale pour
les lois de probabilité discrètes et continues - Proposition de modèles permettant de rendre
compte de ce phénomène dans les collections
textuelles - Application à la recherche dinformation ad hoc
- Publications Journal of Information Retrieval et
SIGIR 2010
28LIG dans Fragrances (2)
- WP2 Algorithmes pour la fouille de données dans
les réseaux de contenu - Développement (LIG) dun modèle de diffusion de
linformation au sein de réseaux - Problèmes abordés
- A partir de quel(s) nœud(s) est-il préférable de
diffuser une information donnée pour garantir un
taux de diffusion minimum ? - Au bout de combien de temps linformation aura
atteint au moins n des nœuds du réseau, avec une
probabilité dau moins 1-? ? - Au bout de combien une information diffusée dun
nœud donné atteindra tel autre nœud avec une
probabilité dau moins 1-? ? - Prise en compte de la topologie du réseau mais
aussi du contenu de linformation diffusée et du
profil de chaque utilisateur - Prise en compte dune dynamique à différents
niveaux global, par classes dutilisateurs, par
utilisateur - Modèle généralise des modèles standard de
diffusion généralisation passe par prise en
compte du contenu
29XRCE dans Fragrances (1)
- WP 2 Analyse de réseaux sociaux
- Mesures de centralité
- de degré, d'intermédiarité, proximité, prestige,
etc. - Degré de cohésion, de densité
- Équivalence structurale, multiplexité
- Les cliques, l'effet du petit monde
- Autorités, hubs, communautés
- L'exploitation conjointe du lien et le contenu
des informations - Passage a léchelle
- Evaluation sur les collections différents
- Emails (Enron, CLEF Track-Legal, e-discovery)
- INEX Wikipedia
30XRCE dans Fragrances (2)
- Inex Wikipedia
- 50,000 pages, multi-classe multi-étiquettes, 27
étiquettes - Agrégation label expansion avec fusion tardif
- Gain par rapport a baseline 3
- Enron Corpus
- 600K emails, 115K acteurs, classification avec 1
etiquettes (responsiveness) - Combiner le contenu et le réseaux sociale
- Agrégation par fusion tardif avec RBF kernels
- Gain par rapport a baseline 10
- E-discovery
- 1 million d'emails,100.000 sont marqués,
catégorisation privilégiés/non-privilégié - Extension de documents non-mail (via informations
sur l'auteur) - Extension multi-vues de la variable latente
commune - Une exigence légale de 95 de rappel
- Gain par rapport a baseline 5
-
31XRCE dans Fragrances (3)
- WP 2 Les modèles à variables latentes LDA
- LDA (Latent Dirichlet allocation) est un modèle
génératif qui permet à expliquer de séries
d'observations par des groupes non observées - Dans les observations documents-mots, le principe
est que chaque document est un mélange d'un petit
nombre de sujets et que la création de chaque mot
est attribuable à l'un des sujets du document - Ordre des entités n'est pas important (BOW)
- Extension bayésienne de PLSA
3
32XRCE dans Fragrances (4)
- La détection des alias
- Un participant peut être représenté par les
e-mails dans lequel il/elle a participé - Une personne peut avoir plusieurs
identités/e-mails - 100K documents, vocabulaire 250K , 36K
participants - Modèle LDA pour la détection des alias
- Générer un modèle LDA sur tous les documents
- Les e-mails échangés entres les participants
- Obtenir une distribution des sujets pour chaque
document - Générer le profil moyen d'un participant par
l'agrégation de la distribution de sujets de tous
les documents dans lequel il / elle a participé - Pour une identité a de-dupliquer, compare sa
distribution de sujets aux les distributions des
tous les participants - Les modèles LDA pour le contenu et les
informations relatives aux participants - On peut pas utiliser les deux en même temps
- La fusion tardive pour fusionner les scores
obtenus à partir des deux modèles LDA - Amélioration de 5 les performances par rapport
à la performance des systèmes individuels
33Exalead dans Fragrances (1)
- WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu - Exalead contribue Modèlisation de graphes par
mélanges de distribution des connexion - WP2.2 Développer dalgorithmes pour la fouille
dans les réseaux de contenu suivant les trois
grandes classes de familles - Exalead Publications Pattern Recognition Letters
et The Annals of Applied Statistics - WP3.1 Etablir des spécifications du premier
prototype de lapplication Exalead - Exalead a produit le cahier de charges pour
Constellations, une application de détection et
visualisation des communautés - un service en ligne destiné au moteur de
recherche dExalead, qui est en mesure de révéler
les informations de connectivité induite par
hyperliens entre les résultats dune requête
utilisateur.
33
34Exalead dans Fragrances (2)
- WP3.3 Implémentation du premier prototype
Exalead - En avance sur le planning, Exalead a sorti un
premier prototype de Constellations - Premier prototype ne traite que le connectivité
liens (sans prendre en compte le contenu des
sites) - Un premier sous-graphe extrait suite à une
requête sur le Web - Calcul de communautés basé sur liens dans
sous-graphe - Architecture ouverte
- Pouvant accueillir les algorithmes de détection
de communautés dautres partenaires Fragrances - A venir, prise en compte du contenu des noeuds
dans la reconnaissance des communautés
34
35Exalead dans Fragrances (3)
WP3.3 Implémentation du premier prototype
Exalead
35
36Exalead dans Fragrances (4)
WP3.3 Implémentation du premier prototype
Exalead
36
37Livrables
37
38Gestion du projet portail Codendi (XRCE)
- Page de projet
- fragrances-project_at_lists.partners.xrce.xerox.com
- http//lists.partners.xrce.xerox.com/mailman/listi
nfo/fragrances-project - Group de lecture
- fragrances-reading-groups_at_lists.partners.xrce.xero
x.com - http//lists.partners.xrce.xerox.com/mailman/listi
nfo/fragrances-reading-groups
38
39Livrables à T06 février 2010
Numéro Désignation Forme / Support
WP.1.1 Etat de lart sur laccès à linformation dans des graphes de contenu Rapport
WP.2.1 Etat de lart sur les algorithmes pour les réseaux de contenu Rapport
39
40Livrables à T012 mi-2010
Numéro Désignation Forme / Support
WP 3.1 Spécifications du premier prototype de lapplication Exalead Rapport
WP.3.2 Spécifications du premier prototype de lapplication XRCE Rapport
WP 3.3 Implémentation du premier prototype Exalead En avance sur le planning
40
41Diffusion et Valorisation
41
42Publications
- C. Grimal, G. Bisson. Classification à partir
dune collection de matrices. Actes de lAtelier
REcherche et REcommandation d'information dans
les RESeaux sociaux (REiSO), INFORSID 2010. - S. Clinchant, E. Gaussier. Information-Based
Models for Ad Hoc IR. Proceedings of 33rd Annual
ACM SIGIR Conference, SIGIR, 2010. - S. F. Hussain, G. Bisson. Text Categorization
Using Word Similarities Based on Higher Order
Co-occurrences. Proceedings of the Tenth SIAM
International Conference on Data Mining, SDM,
2010. - S. Clinchant, E. Gaussier. Retrieval Contraints
and Word Frequency Distributions A Log-Logistic
Model for IR. Journal of Information Retrieval,
Special Issue on Theoretical Models, 2010 (to
appear). - S. F. Hussain, G. Bisson. Co-clasification
méthode et validation. Actes de la XIième
Conférence Francophone sur lApprentissage
Artificiel, CAp, 2009. - Denoyer L., Gallinari P., A ranking based model
for automatic image annotation in a social
network, AIII ICWSN, 2010. - Peters S., Denoyer L., Gallinari P., Iterative
annotation of multi-relational social networks,
ASONAM 2010. - Denoyer L., Gallinari P. Modèles
d'Ordonnancement pour l'Annotation Automatique
d'Images dans les Réseaux Sociaux. CORIA 2010
115-129 - Gao S., Denoyer L., Gallinari P., Prédiction de
motifs relationnels par décomposition tensorielle
dans les réseaux sociaux, Atelier REISO
conférence Inforsid, 2010. - Julien Ah-Pine, Stéphane Clinchant , Gabriela
Csurka Comparison of Several Combinations of
Multimodal and Diversity seeking Methods for
Multimedia Retrieval, Proc CLEF 2009. - M. Hovelynck, B. Chidlovskii Multi-modality in
one-class classification. Proc. WWW Conference,
2010, pp. 441-450. - Zanghi, H. and Volant, S. and Ambroise, C.
Clustering based on random graph model embedding
vertex features, Pattern Recognition Letters,
2010.() - Zanghi, H. and Picard, F. and Miele, V. and
Ambroise, C., Strategies for Online Inference of
Model-Based Clustering in large Networks, The
Annals of Applied Statistics, 2010, to appear
42
43Valorisation et Dissémination
- Présentations
- Nationales
- Cap 2009, CORIA 2010, REiSO 2010
- Internationales
- ACM SIGIR 2010, WWW 2010, SIAM DM 2010, ASONAM
2010, ICWSN 2010, CLEF 2010 - Organisation de workshop
- G. Grefensette dExalead et E. Gaussier du LIG
ont co-organisé, avec la collaboration de IRIT,
le premier atelier sur la recherche et la
recommandation dinformation dans les réseaux
sociaux (http//www.irit.fr/REISO/)
44Faits marquants
- Proposition de nouvelles techniques pour la
recherche dinformation dans le contexte social - Proposition de nouvelles méthodes dapprentissage
- Exalead et LIG ont co-organisé le premier atelier
REISO - Participation à la compétition internationale
INEX XML Mining - Participation à la compétition internationale
ImageCLEF - 3 revues à comité de lecture, donc 1
multipartenaires - 5 articles de conférences publiés, donc 1
multipartenaires - 1 brevet est déposé (XRCE), en cours de
validation
44
45Perpectives
45
46Perpectives
- Remarque sur les ensembles de données et des
collections - Collections publiques bien connu sont disponible,
ex. IMDB, Wikipédia - Les vraies (life) données des réseaux sociaux
(ex. Flickr avec son API) - Les données propriétaires (e-discovery avec Xerox
et Exalead) - Première série d'algorithmes et d'expériences a
bien renforcé un intérêt mutuel et la
collaboration entre les équipes - Souhait daméliorer les méthodes proposées
- Développer de nouvelles méthodes
- Tester les algorithmes sur de nouvelles données
- Des exemples concrets
- Apprendre avec les relations multiples dans les
données (TIM-C et LIP6) - L'annotation et la catégorisation d'images sur
des données type Flickr (Xerox, LIP6, Exalead) - Analyse visuelle de résultats (Exalead et Xerox)
- Passage a léchelle des algorithmes
d'apprentissage (tous)
47Aspects non scientifiques
47
48Accord de consortium
- Une première version de laccord a été envoyé à
tous les partenaires - Chaque partenaire a envoyé ces premières
remarques - La deuxième version est signée par tous les
partenaires
48
49Aspects non scientifiques
- CDD recrutés
- LIP6
- Casas Garriga Gemma, le poste dingénieur (début
du contrat novembre 2009, pour 5 mois) - Ali Fakeri-Tabrizi, doctorant (début du contrat
avril 2010, pour 6 mois) - LIG-TIMC
- Grimal Clément, doctorant (début du contrat
octobre 2009, pour 36 mois)
49
50Aspects non scientifiques
- Equipements achetés aucun
- Crédits consommés entre le 01/09/2009 et le
31/05/2010
LIP6 LIG TIM-C Exalead XRCE
Crédits consommés (en ) 50 missions 20 personnels 60 5 58 40
Les dépenses sont conformes ou inférieures à
celles prévues
50
51Merci de votre attention