Title: La vision : une activit
1La vision une activité exploratoire
- Un très grand nombre d associations possibles,
mais dont seul un sous-ensemble est considéré
comme pertinent à un temps donné
2Une infinité de combinaisons spatiales et
sémantiques
- Interior of a room with a group of people
- a piano in the background
- a man entering a room, he is wearing an overcoat
and has a hat in his hand - a woman is in foreground standing up from a chair
looking towards a man entering the room - a baby in a high chair, three other children in
the background observing the visitor - a woman in an apron by the door
The unexpected visitor A.L.Yarbus, Eye
Movements Vision
3Une activité située - contexte sémantique
- Yarbus 67
- 1. No question asked
- 2. Judge economic status
- 3. Give the ages of the people
- 4. What were they doing before the visitor
arrived ? - 5. What clothes are they wearing ?
- 6. Remember the position of people and objects
- 7. How long is it since the visitor has seen the
family ?
4Une activité située - contexte perceptif
- Le contexte joue un rôle majeur dans
l'orientation des processus visuels une
situation est toujours perçue et ne prend sens
que dans un contexte donné (observations
voisines, précédentes, hypothèses et buts
courants) - Un carré clair dans l ombre est du même gris
qu un carré sombre à l extérieur de l ombre
"Whilst part of what we perceive comes through
our senses from the object before us, another
part (and it may be the larger part) always comes
out of our own mind." - W. James
5Difficulté à formaliser et acquérir les
connaissances
- Des connaissances sur les situations à analyser,
sur les relations entre situations et opérateurs
de traitements, entre objectifs et processus de
production des résultats - Un ensemble protéiforme, hétérogène, une
combinatoire infinie - Comment prévoir toutes les apparences dun objet,
le comportement dun opérateur dans toutes les
situations possibles ? - Lorsque la chaîne de traitement est longue,
comment mesurer leffet dun choix (dopérateur
ou de paramétrage) ? - Insuffisance des outils de modélisation
6Premiers modèles
7Mais une approche globale, sensible aux
variations de forme, aux occlusions
8Procéder par décomposition des géons
- Une approche psycho-perceptive exploitant 36
formes de base les géons - Mais rigidité du modèle, unicité et spécificité
de la décomposition?
Les géons (Biederman, 1987)
9aux géons déformables
Pilu Fisher (ECCV 96)
10Dautres connaissances les relations spatiales
Distance
Orientation
Un modèle déformable intégrant des relations
spatiales pour la segmentation de structures
cérébrales - O. Colliot, O. Camara, I. Bloch,
RFIA 2004
11Plusieurs sources de connais-sances
- Un problème de suivi dobjets multiples
formulation bayésienne intégration de diverses
sources de connaissances - Au niveau objet paramètres et comportements des
objets (des piétons, des voitures) - Au niveau configuration paramètres et
comportements des configurations - Au niveau scène configurations attendues et
leurs modifications, environnement - Multi-object Tracking Based on a Modular
Knowledge Hierarchy - Martin Spengler and Bernt
Schiele, ICVS 2003
12La hiérarchie des connaissances
- Connaissances au niveau scène
- ensemble K des objets à observer K car,
person. - fond de la scène (gaussienne) les objets
considérés comme fixes , eg lenvironnement et
les voitures stationnées - Connaissances au niveau configuration
- A priori sur la taille - une gaussienne N(3,1) -
et larrangement mutuel - Connaissances au niveau objet
- modèles des objets et facteurs déchelle
(dépendant de la position) acquis par
apprentissage et considérés comme fixes
incluent explicitement une partie
environnementale les zones inconnues sont
écartées des calculs dappariement - la dynamiques des objets p(q t q t-1) est
approximée par des modèles linéaires simples
13Exploiter des informations contextuelles
- Pour prédire les lieux doccurrence des objets et
leur type avant de lancer la détection, pour
lever des ambiguïtés - Compléter le manque dévidence sur lidentité
dun objet, par des connaissances sur la
structure de la scène et les régularités de son
organisation (modéliser les co-occurrences
dobjets) - Dans tous les cas, ces éléments permettent de
simplifier les stratégies de reconnaissance en
réduisant lespace des catégories dobjet, des
échelles et des positions à examiner et en
focalisant lattention - Context-Based Vision System for Place and Object
Recognition, - A. Torralba, K. P. Murphy, W.T. Freeman, M. A.
Rubin, AI Memo 2003-005
14Méthodes discriminativesdescripteurs locaux et
invariants
- Rechercher à partir de la base dexemple des
régions invariantes aux changements déchelle et
aux transformations affines pour des images
prises de points de vue différents. - Ces régions permettent de calculer des
descripteurs locaux invariants. - Ici sont présentées les régions mises en
correspondance entre les deux images. - (Cordelia Schmidt)
Modéliser seules les variabilités qui sont utiles
15Modéliser lapparence locale
- Utiliser les réponses à des détecteurs locaux 3
types de détecteurs, à base 2 (A et B), 3 (C ) ou
4 (D) - On calcule la différence entre la somme des
points dans les zones blanches et les zones
grises - Sachant que la taille du détecteur est 24x24, on
dispose de 45,396 descripteurs - Hypothèse un très petit nombre de telles
caractéristiques peuvent être combinées pour
constituer un classifieur - Problème les trouver --gt apprentissage par
raffinement successif (Adaboost)
P. Viola, M.Jones, Robust Real-time Object
Detection, Second Int. Workshop on statistical
and computational theories of vision, Vancouver
2001
16Application à la détection de visages
Les 2 caractéristiques les plus discriminantes
sélectionnées par AdaBoost à partir dune base
dimages de visages.
- Le premier descripteur exprime la différence
dintensité entre la zone des yeux et la zone des
pommettes - Le second descripteur mesure la différence
dintensité entre les yeux et la zone au dessus
du nez - Détection correcte de 100 des visages, rejet
denviron 60 des non-visages
17Apparence locale vs méthodes génératives
- Object Class Recognition by Unsupervised
Scale-Invariant Learning, R. Fergus, P. Perona,
A. Zisserman, CVPR 2003 (best paper prize) - A method to learn and recognize object class
models from unlabeled and unsegmented cluttered
scenes involving occluded objects in a scale
invariant manner - Objects are modelled as a constellation of parts
(regions that are salient over both scale and
location) each described by its location scale
and appearance
18A generative probabilistic model
- A model has a fixed number of parts (typically
5-7) which model the properties of regions on the
object (the foreground model) and a clutter model
which models the remaining regions in the
background of the image. - The relative location of the parts is modeled by
a joint Gaussian density. The remaining regions
(clutter model) are assumed to occur uniformly
and independently over the image, so are modeled
with a uniform density. - The appearance of each part is modeled by a
Gaussian in the 15-dimensional PCA space. The
background regions are also modeled by a fixed
Gaussian density. - The scale of each part is also modeled by a
Gaussian, with the background regions assumed to
be distributed uniformly over scales. - To handle occlusion, we model the probability of
each part being present. - Finally, we model the number of background
detections expected in the image with a Poisson
distribution.
19Learning a model as a consistent constellation of
parts
- Hypothesis the object instance is the only
visually consistent thing across all training
images, with the background of the objects being
random in nature - By modeling this consistency across the training
images, we model the object itself - We start off with a random assignment for
parameter settings. These initial parameters give
rise to some best region assignment. The
remaining regions are assigned to the background
model the EM algorithm then iterates,
alternatively optimizing the parameters and the
assignments to find the optimal settings for
both. - After a few iterations, the model chooses the
most stable and consistent configuration of
regions, with the more random regions in the
background being assigned to the background
model.
20- On the left we show the shape model. Each part of
the model is shown in a different colour. The
mean location is indicated by the cross, with the
ellipse showing the uncertainty in location. The
number by each part is the probability of that
part being present. - On the right, we show examples of regions which
are closest to the mean of the appearance density
of each part. The eyes and hairline features seem
to be preferred.
21Some results
- The size of the ellipse corresponds to the size
of the region. - Notice the man in the top right has very little
hair, so the hairline features are not picked up
but since occlusion is modeled, the model still
copes.
22Le mouvement une contrainte de cohérence
supplémentaire
- Using Temporal Coherence to Build Models of
Animals, Deva Ramanan, D. A. Forsyth, IEEE
International Conference on Computer Vision
(ICCV2003) - Une base de données comportant des vidéos
danimaux le modèle de lapparence est une
approximation dune vue du corps sous la forme
dun assemblage de rectangles (segments) texturés
et colorés - On procède tout dabord à la détection des
segments (recherche de lignes de contraste
parallèles selon différentes orientations et
différentes échelles) - Chaque segment est décrit par un vecteur
caractéristique qui contient des informations sur
la forme (la longueur et la largeur) du segment
et sa couleur (histogramme normalisé) - Les segments proches en apparence sont ensuite
regroupés (clustering par méthode
non-paramétrique), sils sont visibles sur
plusieurs frames successifs et ne violent pas une
contrainte cinématique les clusters immobiles
sont rejetés - Létape suivante est dassembler les segments en
objets plus complexes on procède
incrémentalement à partir du corps de lanimal,
plus facile à détecter, puis en lui associant les
autres parties (comme la main, la jambe, le cou
et la tête) selon leur distance relative avec le
corps (inférences complexes)
23(No Transcript)
24Adapter coupler reconnaissance et segmentation
- Interleaved Object Categorization and
Segmentation, Bastian Leibe and Bernt Schiele,
BMVC 2003 - La connaissance est exprimée comme un
dictionnaire associant - un ensemble de patch de taille fixe (25x25)
correspondant à des zones riches en informations
caractéristiques - aux masques de segmentation correspondant
- Les modèles de patch sont construits par
- extraction de points dintérêt dans les images
(opérateur de Förstner, détecteur de Harris), - extraction des patchs autour de ces points
dintérêt, - regroupement de patchs similaires par un
algorithme de clustering agglomératif - On dispose pour chaque image de la base (160
images correspondant à 60 vues de 10 objets dune
même catégorie) dun masque de segmentation
figure-fond
25Les entrées du dictionnaire
26Utilisation du dictionnaire
- A chaque cluster est associé un représentant
auquel on associe toutes les positions
rencontrées pour ce cluster dans la base dimages
et les masques de segmentation des patchs
correspondants - Voitures 2519 clusters, 20359 masques de
segmentation - Phase de reconnaissance
- Extraction des patchs (points dintérêt) pour
limage à analyser - Comparaison au vocabulaire plusieurs résultats
possibles - Les entrées activées votent pour une position
possible - On garde la position la plus probable
- On peut affiner lhypothèse en examinant tous les
patchs dans son voisinage (pas seulement ceux qui
correspondent à un point dintérêt) On obtient
une représentation grossière de lobjet - Pour un point de limage, sa probabilité de
segmentation est calculée par la somme des
probabilités issues de tous les patch qui le
recouvrent
27(No Transcript)
28(No Transcript)
29Beaucoup de questions ouvertes
- Constitution des corpus ?
- Usage des modèles ?
- Stratégie dapprentissage ?
- Interaction homme-machine ?