Title: Page N1
1Annotation automatique d'images pour la
navigation dans les collections de photos
personnelles
- Bertrand Chupeau
- "Vision par ordinateur pour les
télécommunications" - Rennes, 18 mai 2004
2Plan de lexposé
- Introduction
- Contexte, objectifs et approche pour un système
de navigation dans une base de photos
personnelles - Étude ergonomique
- Des besoins et attentes utilisateurs aux
spécifications dun système - Démonstrateur sur plate-forme grand-public
- Le prototype Annapurna
- Fonctionnalité reconnaissance de visages
- Premiers résultats
3ContextePhoto numérique et télévision
- Les ventes dappareils photo numériques explosent
- Le quart des appareils photos vendus en France en
2001, soit 600 000 unités, 75 par rapport à
2000 - Les ventes devraient dépasser celles des modèles
argentiques dès 2005 - Une nouvelle génération de décodeurs TV équipés
de moyens de stockage sur disque dur ( Personal
Video Recorders ) - TiVo, ReplayTV (SONICblue), Echostar DishPlayer,
MOXI Media Center, Philips YourTV, DirectTV
UltimateTV, Sky, etc. - Les particuliers vont découvrir progressivement
que la télévision est une alternative conviviale,
facile à utiliser pour visionner et partager ses
photos (InfoTrends)
4ContexteGestion de bases de données dimages
- De nombreux systèmes professionnels de gestion de
bases de données dimages ( Digital Image Asset
Management ) - iBase Manager, Media Server by SCC, Cumulus by
Canto, MediaServer by BlueOrder/TechMath - Plus récemment, Apple et Microsoft ont proposé
des systèmes de gestion de collections de photos
numériques personnelles, mais - Basés principalement sur des annotations entrées
manuellement - Dans un environnement PC
- Approche WIMP (window, icon, menu, pointing
device) adaptée aux technophiles, trop complexe
pour le grand public
5ContexteOutils dans le monde PC
iPhoto
Picture It
6Objectifs
- Sélectionner le meilleur des techniques
dindexation dimages par le contenu - Annotation sémantique automatique
- Navigation par proximité sémantique
- Les améliorer et les adapter au contexte
grand-public - Environnement familial domestique
- Téléviseur amélioré, équipé de moyens de stockage
- Les démontrer à travers un scénario dusage
- Application de gestion dune collection de photos
personnelles
7Approche
- Étude dusage des techniques dannotation
automatique dimages - Dans le contexte de la gestion dune collection
de photos personnelles - Développement dun prototype comportant
- Un moteur dannotation automatique qui ajoute des
mots-clés descriptifs aux images (mer, neige,
paysage, ville, intérieur, bébé, groupe de
personnes) - Une application de navigation par similarité
sémantique et/ou visuelle - Portage sur une plate-forme grand-public (de type
décodeur avec disque dur) - Contrainte forte sur la puissance et le coût des
algorithmes mis en uvre - Avec le support de la plate-forme expérimentale
développée - Étude exploratoire sur la reconnaissance de
visage - Dans le contexte photos personnelles
8Plan de lexposé
- Introduction
- Contexte, objectifs et approche
- Étude ergonomique
- Des besoins et attentes utilisateurs aux
spécifications du système - Démonstrateur sur plate-forme grand-public
- Le prototype Annapurna
- Fonctionnalité reconnaissance de visages
- Premiers résultats
9Étude ergonomiqueObjectifs
- Mesurer lexistence du besoin chez les
utilisateurs dappareil photo numérique - Mieux comprendre ce quest une collection de
photos personnelles - Évaluer la pertinence des technologies
dindexation automatique - faire le point sur les technologies disponibles
- définir les technologies nécessaires
- Apporter des connaissances sur les besoins et les
usages des utilisateurs - Anticiper un contexte dusage futur pour les
technologies émergentes - Spécifier une application innovante de gestion de
photo
10Étude ergonomiqueDémarche
- Revue de littérature sur les systèmes
expérimentaux de gestion de photos personnelles - Analyse des logiciels existants
- afin de repérer les fonctionnalités disponibles
et les classements possibles. - Questionnaire danalyse des usages et des besoins
- a permis de recueillir un grand nombre de
réponses et donc de couvrir des usages et de
besoins variés (105 réponses, parmi le personnel
Thomson)
11Étude ergonomiqueRésultat du questionnaire
dusage (extrait)
Organisation manuelle des collections de photos
3
16
aucune
Par thème
38
Par nom dutilisateur
Par sujet
Autres
37
6
12Étude ergonomiquePrincipaux enseignements du
questionnaire dusages
- Le questionnaire dusage a permis de montrer que
- Les deux dimensions essentielles de classement
des photos sont la chronologie et les thèmes.
Parmi les thèmes cités, 67,8 correspondent à des
événements - Le partage et lévocation de souvenirs sont deux
fonctions importantes des photos personnelles - Le classement des photos personnelles est une
tâche fastidieuse (41 des utilisateurs nont
aucune ou très peu de photos classées) - 69 des utilisateurs utilisent une seule modalité
de classement - Un utilisateur sur trois rencontre des
difficultés de classement - Les photos numériques engendrent une activité de
recherche majoritairement - Les objets de recherche sont variés
13Étude ergonomiqueLe profil utilisateurs
- Le grand public est une cible mal définie et
hétérogène - Lapplication que nous spécifions
- sadresse à la fois à des utilisateurs nayant
pas dordinateur mais souhaitant acquérir un
appareil photo numérique - peut être une alternative conviviale destinée aux
utilisateurs dinformatique - Le contexte de loisirs incite peu à sinvestir
dans une activité coûteuse - Ce profil suppose de proposer une application
- - nécessitant peu dapprentissage
- - peu exigeante sur le plan cognitif
- - qui permette une navigation simple
- - conviviale
- - ludique
14Étude ergonomiquePrincipaux choix de conception
- Annotation semi-automatique faciliter et
alléger lactivité dindexation et de laisser un
contrôle à lutilisateur - Faciliter laccès à la base de donnée par une
fonctionnalité de balayage choix dun
segment thématique ou temporel restreint - Possibilité de consulter les photos soit dans un
mode recherche soit dans un mode exploratoire
(navigation) - Contrôle de lutilisateur via la télécommande
périphérique dentrée le plus utilisé et le plus
simple
15Étude ergonomiqueMaquette ergonomique
Navigation thématique
Option de navigation Catégorie PAYSAGE CÔTIER
Image avec un enfant et un paysage côtier
Option de navigation Catégorie ENFANT
16Plan de lexposé
- Introduction
- Contexte, objectifs et approche
- Étude ergonomique
- Des besoins et attentes utilisateurs aux
spécifications du système - Démonstrateur sur plate-forme grand-public
- Le prototype Annapurna
- Fonctionnalité reconnaissance de visages
- Premiers résultats
17Démonstrateur sur plate-formeLe projet Annapurna
les partenaires
- THOMSON (chef de file)
- Corporate Research, Centre de Rennes
- LTU Technologies
- INRIA
- IRISA (Rennes) / Équipe TexMex
- Université Joseph Fourier (Grenoble)
- IMAG / Laboratoire CLIPS
18Démonstrateur sur plate-formeLe projet Annapurna
les objectifs
- Déterminer les besoins et les attentes dun
utilisateur grand-public face à un système
dannotation automatique et de navigation dans
une base de donnée dimages personnelles - Spécifier lIHM dun tel système
- Démontrer ses performances au travers de
scénarios dutilisation, lévaluer par une étude
dusage - Développer le prototype dun système de
classification automatique en catégories
sémantiques des images dune collection
personnelle - Portage du cur de technologie Image-IndexerTM
de LTU sur une plate-forme grand-public - Étudier lorganisation de la base des
descripteurs et le couplage avec les algorithmes
de recherche, pour une réponse immédiate aux
requêtes malgré la puissance limitée de la CPU - Développer un moteur de navigation qui sappuie
sur la classification en catégories sémantique,
mais aussi sur la similarité visuelle
19Démonstrateur sur plate-formeLa démarche
- Développement dun prototype comportant
- Un moteur dannotation automatique qui ajoute des
mots-clés descriptifs aux images (mer, neige,
paysage, ville, intérieur, bébé, groupe de
personnes) - Une application de navigation par similarité
sémantique et/ou visuelle - Portage sur une plate-forme grand-public (de type
décodeur avec disque dur) - Contrainte forte sur la puissance et le coût des
algorithmes mis en oeuvre
20La plate-formeLes besoins du projet
- portage sur une plate-forme embarquée
grand-public, de type décodeur numérique - stockage dimages et de méta données sur disque
dur - affichage dimages (JPEG) sur lécran TV
- interface utilisateur sur lécran TV
- Contrainte forte sur la puissance et le coût des
algorithmes mis en oeuvre
21La plate-formeLa plate-forme homelink
- processeur MIPS 32bits, 150 MHz
- 128 Mo de RAM
- 8 Mo de mémoire flash
- carte graphique ATI
- carte éthernet
- interface bus IEEE1394
- liaison série
- disque dur de 40 Go
22La plate-formeEnvironnement de développement
- Plate-forme Linux embarqué
- cross compilateur MIPS GCC de GNU
- langages supportés C, C
- développement sur PC Linux
- utilisation de la bibliothèque DirectFB via le
frameBuffer Linux (tracé de lignes, de
rectangles, écriture de texte, gestion des
évènements de la télécommande, affichage
dimages)
23Démonstrateur sur plate-formeAnnotation
automatique classification
- Problem
- Classification in signature space
- Problem
- Classification in signature space
Mountain
Classification
signature
annotation
Mountain
No mountain
24Démonstrateur sur plate-formeAnnotation
automatique
Portage de la technologie LTU
25Démonstrateur sur plate-formeIndexation et
recherche
- Problème accélérer la recherche de similarité
entre images - Étude sur les index (équipe TexMex de lIRISA)
- Recherche exhaustive séquentiel
- Recherche non-exhaustive clusters
26Démonstrateur sur plate-formeInterface
homme-machine
- Réalisation dune interface minimale, permettant
de démontrer les principaux scénarios de
recherche et de navigation dans une base de photo
indexée par le contenu, dans un environnement TV
(télécommande) - Conception dune bibliothèque de composants
graphiques haut niveau (panneaux dimages, menus,
etc.) à partir dune bibliothèque graphique très
bas-niveau - Létape suivante serait une phase de design pour
améliorer lapparence des objets graphiques
27Démonstrateur sur plate-formeInterface
homme-machine (aperçu)
28Démonstrateur sur plate-formeRéalisation
- Base de 450 photos personnelles
- Annotées automatiquement off-line
- Signatures visuelles
- 20 Mot-clés (bébé, plage, bâtiment, ville, foule,
herbe, intérieur, paysage, montagne, nuit,
extérieur, gens, portrait, route, rocher, mer,
ciel, neige, coucher de soleil, arbre) - Scénarios de navigation
- Navigation dans la collection en feuilletant des
pages de vignettes (possibilité daffichage
pleine page de limage courante) - Navigation aléatoire
- Recherche par similarité (image exemple)
- Recherche par mot-clé
29Démonstrateur sur plate-formeÉvaluation
- Temps de calcul
- Annotation (signature visuelle classification)
1mn / image - En temps différé, par exemple la nuit
- Recherche par catégorie instantanée
- Recherche par similarité visuelle lt 10 s
- Des solutions sont identifiées pour diminuer le
temps de réponse - Qualité des résultats
- Similarité visuelle parfaite
- Classification sémantique dexcellent
( bébé ) à variable, selon que les catégories
sont pertinentes ou non par rapport au corpus - Nécessité de sélectionner les catégories et de
soigner lapprentissage
30Démonstrateur sur plate-formeReste à faire
- Design dune IHM et évaluation utilisateur
- Optimisation du temps de réponse
- Solutions matérielles (co-processeur, etc.)
- Solutions algorithmiques (indexation avancée)
- Fonctionnalité reconnaissance de visages
31Plan de lexposé
- Introduction
- Contexte, objectifs et approche
- Étude ergonomique
- Des besoins et attentes utilisateurs aux
spécifications du système - Démonstrateur sur plate-forme grand-public
- Le prototype Annapurna
- Fonctionnalité reconnaissance de visages
- Premiers résultats
32Détection de visagesApproche basée modèle couleur
- Sur des corpus très variés et des conditions de
prises de vue non contraintes (type photos de
vacance ) - Quelques résultats intéressants avec une approche
basée modèle (couleur chair forme elliptique du
visage)
33Détection de visages
34Détection de visages
35Détection de visages
36Détection de visages
37Détection de visages
38Reconnaissance de visages
- Bons résultats obtenus avec la méthodes des
Fisherfaces sur des bases calibrées (Olivetti
ou UMIST) - Les performances baissent notablement sur une
base représentative dimages personnelles où
la détection a été obtenue par un lalgorithme
précédemment décrit
39Conclusions
- Dans le contexte de la navigation dans une base
de photos personnelles - Le besoin utilisateur a été défini
- annotation sémantique semi-automatique
navigation par proximité sémantique - La maturité des techniques de classification
automatique dimages a été démontrée - Qualité suffisante de résultats
- Complexité calculatoire abordable pour une
plate-forme grand-public - La reconnaissance de visage est incontournable
- Encore du travail pour rendre ces techniques
robustes en présence de contenus de type photos
de vacances