Indexation et recherche d - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Indexation et recherche d

Description:

FRAGRANCES Filtrage, Recherche et Annotations dans des Graphes d Interaction Sociaux Programme CONTINT de l'Agence Nationale de la Recherche (ANR) – PowerPoint PPT presentation

Number of Views:155
Avg rating:3.0/5.0
Slides: 51
Provided by: tol75
Category:

less

Transcript and Presenter's Notes

Title: Indexation et recherche d


1
FRAGRANCES
Filtrage, Recherche et Annotations dans des
Graphes dInteraction Sociaux
Programme CONTINT de l'Agence Nationale de la
Recherche (ANR)? ANR-08-CORD-008 Paris, le 14
juin 2010
1
2
Plan
  • Description du consortium
  • Objectif du projet et présentation des 4 taches
  • Dates importantes et planning
  • Aspects scientifiques
  • Réalisation du consortium FRAGRANCES
  • Réalisation de chaque partenaire dans FRAGRANCES
  • Synthèse des résultats
  • Livrables
  • Diffusion et valorisation
  • Perspectives
  • Aspects non-scientifiques

2
3
Consortium FRAGRANCES
  • Université Pierre et Marie Curie-Paris 6,
    Laboratoire dInformatique ( LIP6)
  • l'Université Joseph Fourier, Laboratoire
    dInformatique de Grenoble (LIG)
  • Laboratoire TIMC-IMAG de Grenoble (TIM-C)
  • Exalead
  • Xerox Research Centre Europe (XRCE)

Coordonnateur XRCE (Boris Chidlovskii)
http//lists.partners.xrce.xerox.com/mailman/list
info/fragrances-project
LIP6 LIG TIM-C EXALEAD XRCE
Sylvain Lamprier Eric Gaussier Gilles Bisson Gregory Grefenstette Jean-Michel Renders
Patrick Gallinari Philippe Mulhem Benoit Lemaire Hugo Zanghi Boris Chidlovskii
Thierry Artieres Ali Mustafa Qamar Fawad Hussain Stéphane Clinchant
Ludovic Denoyer Clément Grimal
3
4
Objectif du projet et présentation des 4 taches
5
Objectif général
  • Proposer de nouvelles méthodes daccès à
    linformation documentaire dans un contexte
    relationnel et communautaire
  • .

5
6
Principaux objectifs scientifiques
  • Développer dalgorithmes et de modèles pour la
    découverte de relations sur les données
    sémantiques et communautaires
  • Déploiement de ces algorithmes sur des problèmes
    à large échelle
  • Intégration des méthodes dans des applications en
    vraie grandeur
  • Validation quantitative et qualitative des
    méthodes développées

6
7
Principaux objectifs technologiques
  • La convergence de recherche dinformation et des
    outils collaboratifs dans les réseaux sociaux
  • La validation des sources et des contenus dans
    lapplication dorganisation documentaire
    collaborative (annotation, classement et
    classification)
  • Le déploiement de ces deux applications en
    situation réelle
  • Leur validation et leur appropriation par des
    utilisateurs.

7
8
Problèmes et défis abordés (1/2)?
  • Recherche dinformation en contexte social
  • 4 scenarios de la recherche dinformation dans un
    contexte social
  • Identification de communautés au sein dun grand
    ensemble dutilisateurs
  • Filtrage d'information dans les réseaux sociaux
  • Exploitation simultanée de des fonctionnalités
    moteurs de recherche et des réseaux sociaux
    dutilisateurs en Recherche dInformation
  • Annotations et classement de documents multimédia
    pour plusieurs communautés dutilisateurs

8
9
Problèmes et défis abordés (2/2)?
  • Les aspects formels et algorithmiques
  • Principales directions de recherche envisagées
  • Les modèles à variables latentes
  • Les modèles de propagation dans les réseaux bases
    sur linférence collective
  • Les méthodes algébriques et  à noyaux  pour la
    décomposition spectrale, la factorisation et la
    réduction de dimension
  • Les méthodes algébriques de co-classification

9
10
Les 4 taches du projet
  • Ce projet contient 4 taches principales
  • WP1 Modes de représentation des informations et
    des connaissances
  • WP2 Algorithmes pour la fouille de données dans
    les réseaux de contenu
  • WP3 Implémentation et déploiement pour deux
    applications cibles
  • WP4 Validation

10
11
WP1
  • Modes de représentation des informations et des
    connaissances
  • Responsable LIG
  • Participants LIP6, TIMC-IMAG, XRCE
  • Objectif proposer un ou plusieurs cadres
    formels pour représenter les problèmes qui
    sous-tendent les scénarios envisagés
  • WP1.1 Etat de lart sur laccès à linformation
    dans des graphes de contenu
  • WP1.2 Etablir de cadres formels permettant la
    description des graphes de contenu et le
    développement dalgorithmes dédiés à leur analyse

11
12
WP2
  • Algorithmes pour la fouille de données dans les
    réseaux de contenu
  • Responsable LIP6
  • Participants LIG, TIMC-IMAG, XRCE, Exalead
  • Objectif développer trois grandes familles
    dalgorithmes pour la fouille de données dans les
    réseaux de contenu et les réseaux sociaux
  • WP2.1 Etat de lart sur les algorithmes pour
    les réseaux de contenu
  • WP2.2 Développer dalgorithmes pour la fouille
    dans les réseaux de contenu suivant les trois
    grandes classes de familles

12
13
WP3
  • Implémenation et déploiement pour deux
    applications cibles
  • Responsable XRCE
  • Participants LIG, TIMC-IMAG, LIP6, Exalead
  • Objectif déployer et dadapter une partie des
    algorithmes dans le cadre de deux applications à
    vocation industrielle 
  • WP3.1 Etablir des spécifications du premier
    prototype de lapplication Exalead
  • WP3.2 Etablissement des spécifications du
    premier prototype de lapplication XRCE
  • WP3.3 et WP 3.4 Implémentation des premiers
    prototypes

13
14
WP4
  • Validation
  • Responsable Exalead
  • Participants XRCE, LIG, LIP6
  • Objectif valider expérimentalement et sur le
    terrain les algorithmes développés en WP2 et les
    applications développées en WP3 
  • WP4.1 Collecte de données pour les deux
    applications cibles
  • WP4.2 Sélection des benchmarks académique et
    évaluations quantitatives
  • WP4.3 Expériences avec des utilisateurs et
    évaluation qualitative

14
15
Dates importantes et planning
16
Dates importantes
  • T0 officiel Février 2009
  • Notification juin 2009
  • Versement septembre 2009 -gt mars 2010
  • Début effectif du projet
  • T0 septembre 2009
  • Le projet a donc aujourdhui 9 mois de travail
    effectif
  • 3 réunions ont été tenues
  • Tous les partenaires ont participé à toutes les
    réunions

16
17
Explication du planning des livrables
  • A T06
  • WP1.1 Etat de lart sur laccès à linformation
    dans des graphes de contenu
  • WP2.1 Etat de lart sur les algorithmes pour
    les réseaux de contenu
  • A T012
  • WP3.1 Spécifications du premier prototype de
    lapplication Exalead
  • WP3.2 Spécifications du premier prototype de
    lapplication dorganisation documentaire
    collaborative XRCE

17
18
Explication du planning des livrables
  • A T018
  • WP1.2 Etablissement de cadres formes (Rapport,
    LIG)
  • WP2.2 Algorithmes (Rapport Articles
    scientifiques, LIP6)
  • WP4.1 Collecte des données (Rapport, Exalead)
  • WP4.2 Benchmarks académiques (Rapport, LIP6)

18
19
Les livrables dans le planning
T06 T06 T06
WP1.1 WP2.1 Rapport Etat de lart sur laccès à linformation dans des graphes de contenu et sur les algorithmes pour les réseaux de contenu Livré début 2010
T012 T012 T012
WP3.1 Spécifications du premier prototype de lapplication Exalead Livré mi-2010
WP3.2 Spécifications du premier prototype de lapplication Xerox Livré mi-2010
19
20
Aspects scientifiques et technologiques
21
Résumé des réalisations de chaque partenaire dans
FRANGANCES
22
LIP6 dans Fragrances(1)
  • Etat de lart Tâche 2
  • Classification collective dans les réseaux
    sociaux
  • Modèles relationnels
  • Inférence collective
  • Méthodes régularisées
  • Contributions
  • Annotation Images méthode régularisée
    mono-relationnel - ICWSM 2010, CORIA 2010
  • Annotation Images multilabel multi-relations
    Asonam 2010
  • Prediction Liens Tenseurs Reiso 2010

23
Image annotation méthode régularisée
mono-relationnel Problématique
Le LIP6 dans Fragrances(2)
  • Contexte transductif généraliser un étiquetage
    partiel dans le réseau social
  • Analyser importance des relations implicites
    (contenu) et explicites (sociales)

24
Le LIP6 dans Fragrances(3)
  • Modèle proposé
  • Modèle basé sur deux idées clefs
  • Il ordonne correctement les étiquettes des images
    étiquetées
  • Deux images connectées par une relation auront
    tendance à avoir les mêmes scores (Hypothèse de
    régularité)
  • Exploite
  • Contenu
  • Relations

25
Résultats 3 corpus issus de Flickr
26
Le LIP6 dans Fragrances (4)
  • Annotation dimages par classification collective
  • Modèle pour lannotation dimage qui étend les
    méthodes de classification collective
  • Complexité plus faible que les méthodes
    transductives
  • Prise en compte de relations multiples
  • Tests sur données Flickr
  • Première méthode dannotation par prise en compte
    de relations multiples
  • Méthodes tensorielles pour la classification de
    liens
  • Problématique générale
  • détection de relations dans un réseau social
  • Problématique générique avec de nombreuses
    applications
  • Détection de liens multiples
  • Formulation du problème sous forme tensorielle
  • Prise en compte simultanée de relations multiples
  • Algorithme dapprentissage
  • Tests sur 3 ensembles de données et comparaisons
  • Première méthode de prédiction de liens multiples

26
27
LIG dans Fragrances (1)
  • Nouvelles méthodes proposées
  • WP1 Modèles de représentation des informations
    et des connaissances
  • Collaboration (LIG/XRCE) sur la modélisation du
    phénomène de rafale, appelé burstiness dans la
    communauté texte et preferential attachment dans
    la communauté réseau
  • Définition formelle de la notion de rafale pour
    les lois de probabilité discrètes et continues
  • Proposition de modèles permettant de rendre
    compte de ce phénomène dans les collections
    textuelles
  • Application à la recherche dinformation ad hoc
  • Publications Journal of Information Retrieval et
    SIGIR 2010

28
LIG dans Fragrances (2)
  • WP2 Algorithmes pour la fouille de données dans
    les réseaux de contenu
  • Développement (LIG) dun modèle de diffusion de
    linformation au sein de réseaux
  • Problèmes abordés
  • A partir de quel(s) nœud(s) est-il préférable de
    diffuser une information donnée pour garantir un
    taux de diffusion minimum ?
  • Au bout de combien de temps linformation aura
    atteint au moins n des nœuds du réseau, avec une
    probabilité dau moins 1-? ?
  • Au bout de combien une information diffusée dun
    nœud donné atteindra tel autre nœud avec une
    probabilité dau moins 1-? ?
  • Prise en compte de la topologie du réseau mais
    aussi du contenu de linformation diffusée et du
    profil de chaque utilisateur
  • Prise en compte dune dynamique à différents
    niveaux global, par classes dutilisateurs, par
    utilisateur
  • Modèle généralise des modèles standard de
    diffusion généralisation passe par prise en
    compte du contenu

29
XRCE dans Fragrances (1)
  • WP 2 Analyse de réseaux sociaux
  • Mesures de centralité
  • de degré, d'intermédiarité, proximité, prestige,
    etc.
  • Degré de cohésion, de densité
  • Équivalence structurale, multiplexité
  • Les cliques, l'effet du petit monde
  • Autorités, hubs, communautés
  • L'exploitation conjointe du lien et le contenu
    des informations
  • Passage a léchelle
  • Evaluation sur les collections différents
  • Emails (Enron, CLEF Track-Legal, e-discovery)
  • INEX Wikipedia

30
XRCE dans Fragrances (2)
  • Inex Wikipedia
  • 50,000 pages, multi-classe multi-étiquettes, 27
    étiquettes
  • Agrégation label expansion avec fusion tardif
  • Gain par rapport a baseline 3
  • Enron Corpus
  • 600K emails, 115K acteurs, classification avec 1
    etiquettes (responsiveness)
  • Combiner le contenu et le réseaux sociale
  • Agrégation par fusion tardif avec RBF kernels
  • Gain par rapport a baseline 10
  • E-discovery
  • 1 million d'emails,100.000 sont marqués,
    catégorisation privilégiés/non-privilégié
  • Extension de documents non-mail (via informations
    sur l'auteur)
  • Extension multi-vues de la variable latente
    commune
  • Une exigence légale de 95 de rappel
  • Gain par rapport a baseline 5

31
XRCE dans Fragrances (3)
  • WP 2 Les modèles à variables latentes LDA
  • LDA (Latent Dirichlet allocation) est un modèle
    génératif qui permet à expliquer de séries
    d'observations par des groupes non observées
  • Dans les observations documents-mots, le principe
    est que chaque document est un mélange d'un petit
    nombre de sujets et que la création de chaque mot
    est attribuable à l'un des sujets du document
  • Ordre des entités n'est pas important (BOW)
  • Extension bayésienne de PLSA

3
32
XRCE dans Fragrances (4)
  • La détection des alias
  • Un participant peut être représenté par les
    e-mails dans lequel il/elle a participé
  • Une personne peut avoir plusieurs
    identités/e-mails
  • 100K documents, vocabulaire 250K , 36K
    participants
  • Modèle LDA pour la détection des alias
  • Générer un modèle LDA sur tous les documents
  • Les e-mails échangés entres les participants
  • Obtenir une distribution des sujets pour chaque
    document
  • Générer le profil moyen d'un participant par
    l'agrégation de la distribution de sujets de tous
    les documents dans lequel il / elle a participé
  • Pour une identité a de-dupliquer, compare sa
    distribution de sujets aux les distributions des
    tous les participants
  • Les modèles LDA pour le contenu et les
    informations relatives aux participants
  • On peut pas utiliser les deux en même temps
  • La fusion tardive pour fusionner les scores
    obtenus à partir des deux modèles LDA
  • Amélioration de 5 les performances par rapport
    à la performance des systèmes individuels

33
Exalead dans Fragrances (1)
  • WP2.1 Etat de lart sur les algorithmes pour
    les réseaux de contenu
  • Exalead contribue  Modèlisation de graphes par
    mélanges de distribution des connexion 
  • WP2.2 Développer dalgorithmes pour la fouille
    dans les réseaux de contenu suivant les trois
    grandes classes de familles
  • Exalead Publications Pattern Recognition Letters
    et The Annals of Applied Statistics
  • WP3.1 Etablir des spécifications du premier
    prototype de lapplication Exalead
  • Exalead a produit le cahier de charges pour
    Constellations, une application de détection et
    visualisation des communautés
  • un service en ligne destiné au moteur de
    recherche dExalead, qui est en mesure de révéler
    les informations de connectivité induite par
    hyperliens entre les résultats dune requête
    utilisateur.

33
34
Exalead dans Fragrances (2)
  • WP3.3 Implémentation du premier prototype
    Exalead
  • En avance sur le planning, Exalead a sorti un
    premier prototype de Constellations
  • Premier prototype ne traite que le connectivité
    liens (sans prendre en compte le contenu des
    sites)
  • Un premier sous-graphe extrait suite à une
    requête sur le Web
  • Calcul de communautés basé sur liens dans
    sous-graphe
  • Architecture ouverte
  • Pouvant accueillir les algorithmes de détection
    de communautés dautres partenaires Fragrances
  • A venir, prise en compte du contenu des noeuds
    dans la reconnaissance des communautés

34
35
Exalead dans Fragrances (3)
WP3.3 Implémentation du premier prototype
Exalead
35
36
Exalead dans Fragrances (4)
WP3.3 Implémentation du premier prototype
Exalead
36
37
Livrables
37
38
Gestion du projet portail Codendi (XRCE)
  • Page de projet
  • fragrances-project_at_lists.partners.xrce.xerox.com
  • http//lists.partners.xrce.xerox.com/mailman/listi
    nfo/fragrances-project
  • Group de lecture
  • fragrances-reading-groups_at_lists.partners.xrce.xero
    x.com
  • http//lists.partners.xrce.xerox.com/mailman/listi
    nfo/fragrances-reading-groups

38
39
Livrables à T06 février 2010
Numéro Désignation Forme / Support
WP.1.1 Etat de lart sur laccès à linformation dans des graphes de contenu Rapport
WP.2.1 Etat de lart sur les algorithmes pour les réseaux de contenu Rapport
39
40
Livrables à T012 mi-2010
Numéro Désignation Forme / Support
WP 3.1 Spécifications du premier prototype de lapplication Exalead Rapport
WP.3.2 Spécifications du premier prototype de lapplication XRCE Rapport
WP 3.3 Implémentation du premier prototype Exalead En avance sur le planning
40
41
Diffusion et Valorisation
41
42
Publications
  • C. Grimal, G. Bisson. Classification à partir
    dune collection de matrices. Actes de lAtelier
    REcherche et REcommandation d'information dans
    les RESeaux sociaux (REiSO), INFORSID 2010.
  • S. Clinchant, E. Gaussier. Information-Based
    Models for Ad Hoc IR. Proceedings of 33rd Annual
    ACM SIGIR Conference, SIGIR, 2010.
  • S. F. Hussain, G. Bisson. Text Categorization
    Using Word Similarities Based on Higher Order
    Co-occurrences. Proceedings of the Tenth SIAM
    International Conference on Data Mining, SDM,
    2010.
  • S. Clinchant, E. Gaussier. Retrieval Contraints
    and Word Frequency Distributions  A Log-Logistic
    Model for IR. Journal of Information Retrieval,
    Special Issue on Theoretical Models, 2010 (to
    appear).
  • S. F. Hussain, G. Bisson. Co-clasification 
    méthode et validation. Actes de la XIième
    Conférence Francophone sur lApprentissage
    Artificiel, CAp, 2009.
  • Denoyer L., Gallinari P., A ranking based model
    for automatic image annotation in a social
    network, AIII ICWSN, 2010.
  • Peters S., Denoyer L., Gallinari P., Iterative
    annotation of multi-relational social networks,
    ASONAM 2010.
  • Denoyer L., Gallinari P. Modèles
    d'Ordonnancement pour l'Annotation Automatique
    d'Images dans les Réseaux Sociaux. CORIA 2010
    115-129
  • Gao S., Denoyer L., Gallinari P., Prédiction de
    motifs relationnels par décomposition tensorielle
    dans les réseaux sociaux, Atelier REISO
    conférence Inforsid, 2010.
  • Julien Ah-Pine, Stéphane Clinchant , Gabriela
    Csurka Comparison of Several Combinations of
    Multimodal and Diversity seeking Methods for
    Multimedia Retrieval, Proc CLEF 2009.
  • M. Hovelynck, B. Chidlovskii Multi-modality in
    one-class classification. Proc. WWW Conference,
    2010, pp. 441-450.
  • Zanghi, H. and Volant, S. and Ambroise, C.
    Clustering based on random graph model embedding
    vertex features, Pattern Recognition Letters,
    2010.()
  • Zanghi, H. and Picard, F. and Miele, V. and
    Ambroise, C., Strategies for Online Inference of
    Model-Based Clustering in large Networks, The
    Annals of Applied Statistics, 2010, to appear

42
43
Valorisation et Dissémination
  • Présentations
  • Nationales
  • Cap 2009, CORIA 2010, REiSO 2010
  • Internationales
  • ACM SIGIR 2010, WWW 2010, SIAM DM 2010, ASONAM
    2010, ICWSN 2010, CLEF 2010
  • Organisation de workshop
  • G. Grefensette dExalead et E. Gaussier du LIG
    ont co-organisé, avec la collaboration de IRIT,
    le premier atelier sur la recherche et la
    recommandation dinformation dans les réseaux
    sociaux (http//www.irit.fr/REISO/)

44
Faits marquants
  • Proposition de nouvelles techniques pour la
    recherche dinformation dans le contexte social
  • Proposition de nouvelles méthodes dapprentissage
  • Exalead et LIG ont co-organisé le premier atelier
    REISO
  • Participation à la compétition internationale
    INEX XML Mining
  • Participation à la compétition internationale
    ImageCLEF
  • 3 revues à comité de lecture, donc 1
    multipartenaires
  • 5 articles de conférences publiés, donc 1
    multipartenaires
  • 1 brevet est déposé (XRCE), en cours de
    validation

44
45
Perpectives
45
46
Perpectives
  • Remarque sur les ensembles de données et des
    collections
  • Collections publiques bien connu sont disponible,
    ex. IMDB, Wikipédia
  • Les vraies (life) données des réseaux sociaux
    (ex. Flickr avec son API)
  • Les données propriétaires (e-discovery avec Xerox
    et Exalead)
  • Première série d'algorithmes et d'expériences a
    bien renforcé un intérêt mutuel et la
    collaboration entre les équipes
  • Souhait daméliorer les méthodes proposées
  • Développer de nouvelles méthodes
  • Tester les algorithmes sur de nouvelles données
  • Des exemples concrets
  • Apprendre avec les relations multiples dans les
    données (TIM-C et LIP6)
  • L'annotation et la catégorisation d'images sur
    des données type Flickr (Xerox, LIP6, Exalead)
  • Analyse visuelle de résultats (Exalead et Xerox)
  • Passage a léchelle des algorithmes
    d'apprentissage (tous)

47
Aspects non scientifiques
47
48
Accord de consortium
  • Une première version de laccord a été envoyé à
    tous les partenaires
  • Chaque partenaire a envoyé ces premières
    remarques
  • La deuxième version est signée par tous les
    partenaires

48
49
Aspects non scientifiques
  • CDD recrutés
  • LIP6
  • Casas Garriga Gemma, le poste dingénieur  (début
    du contrat novembre 2009, pour 5 mois)
  • Ali Fakeri-Tabrizi, doctorant (début du contrat
    avril 2010, pour 6 mois)
  • LIG-TIMC
  • Grimal Clément, doctorant (début du contrat
    octobre 2009, pour 36 mois)

49
50
Aspects non scientifiques
  • Equipements achetés aucun
  • Crédits consommés entre le 01/09/2009 et le
    31/05/2010

LIP6 LIG TIM-C Exalead XRCE
Crédits consommés (en ) 50 missions 20 personnels 60 5 58 40
Les dépenses sont conformes ou inférieures à
celles prévues
50
51
Merci de votre attention
  • Questions ?
Write a Comment
User Comments (0)
About PowerShow.com