La vision : une activit - PowerPoint PPT Presentation

1 / 29
About This Presentation
Title:

La vision : une activit

Description:

a man entering a room, he is wearing an overcoat and has a hat in his hand ; ... (d pendant de la position) ; acquis par apprentissage et consid r s comme ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 30
Provided by: matts163
Category:
Tags: acquis | activit | une | vision

less

Transcript and Presenter's Notes

Title: La vision : une activit


1
La vision une activité exploratoire
  • Un très grand nombre d associations possibles,
    mais dont seul un sous-ensemble est considéré
    comme pertinent à un temps donné

2
Une infinité de combinaisons spatiales et
sémantiques
  • Interior of a room with a group of people
  • a piano in the background
  • a man entering a room, he is wearing an overcoat
    and has a hat in his hand
  • a woman is in foreground standing up from a chair
    looking towards a man entering the room
  • a baby in a high chair, three other children in
    the background observing the visitor
  • a woman in an apron by the door 

 The unexpected visitor  A.L.Yarbus, Eye
Movements Vision
3
Une activité située - contexte sémantique
  • Yarbus 67
  • 1. No question asked
  • 2. Judge economic status
  • 3. Give the ages of the people
  • 4. What were they doing before the visitor
    arrived ?
  • 5. What clothes are they wearing ?
  • 6. Remember the position of people and objects
  • 7. How long is it since the visitor has seen the
    family ?

4
Une activité située - contexte perceptif
  • Le contexte joue un rôle majeur dans
    l'orientation des processus visuels une
    situation est toujours perçue et ne prend sens
    que dans un contexte donné (observations
    voisines, précédentes, hypothèses et buts
    courants)
  • Un carré clair dans l ombre est du même gris
    qu un carré sombre à l extérieur de l ombre

"Whilst part of what we perceive comes through
our senses from the object before us, another
part (and it may be the larger part) always comes
out of our own mind." - W. James
5
Difficulté à formaliser et acquérir les
connaissances
  • Des connaissances sur les situations à analyser,
    sur les relations entre situations et opérateurs
    de traitements, entre objectifs et processus de
    production des résultats
  • Un ensemble protéiforme, hétérogène, une
    combinatoire infinie
  • Comment prévoir toutes les apparences dun objet,
    le comportement dun opérateur dans toutes les
    situations possibles ?
  • Lorsque la chaîne de traitement est longue,
    comment mesurer leffet dun choix (dopérateur
    ou de paramétrage) ?
  • Insuffisance des outils de modélisation

6
Premiers modèles
7
Mais une approche globale, sensible aux
variations de forme, aux occlusions
8
Procéder par décomposition des géons
  • Une approche psycho-perceptive exploitant 36
    formes de base les géons
  • Mais rigidité du modèle, unicité et spécificité
    de la décomposition?

Les géons (Biederman, 1987)
9
aux géons déformables
Pilu Fisher (ECCV 96)
10
Dautres connaissances les relations spatiales
Distance
Orientation
Un modèle déformable intégrant des relations
spatiales pour la segmentation de structures
cérébrales - O. Colliot, O. Camara, I. Bloch,
RFIA 2004
11
Plusieurs sources de connais-sances
  • Un problème de suivi dobjets multiples
    formulation bayésienne intégration de diverses
    sources de connaissances
  • Au niveau objet paramètres et comportements des
    objets (des piétons, des voitures)
  • Au niveau configuration paramètres et
    comportements des configurations
  • Au niveau scène configurations attendues et
    leurs modifications, environnement
  • Multi-object Tracking Based on a Modular
    Knowledge Hierarchy - Martin Spengler and Bernt
    Schiele, ICVS 2003

12
La hiérarchie des connaissances
  • Connaissances au niveau scène
  • ensemble K des objets à observer K car,
    person.
  •  fond  de la scène (gaussienne) les objets
    considérés comme  fixes , eg lenvironnement et
    les voitures stationnées
  • Connaissances au niveau configuration
  • A priori sur la taille - une gaussienne N(3,1) -
    et larrangement mutuel
  • Connaissances au niveau objet
  • modèles des objets et facteurs déchelle
    (dépendant de la position) acquis par
    apprentissage et considérés comme fixes 
    incluent explicitement une partie
    environnementale les zones  inconnues  sont
    écartées des calculs dappariement
  • la dynamiques des objets p(q t q t-1) est
    approximée par des modèles linéaires simples

13
Exploiter des informations contextuelles
  • Pour prédire les lieux doccurrence des objets et
    leur type avant de lancer la détection, pour
    lever des ambiguïtés
  • Compléter le manque dévidence sur lidentité
    dun objet, par des connaissances sur la
    structure de la scène et les régularités de son
    organisation (modéliser les co-occurrences
    dobjets)
  • Dans tous les cas, ces éléments permettent de
    simplifier les stratégies de reconnaissance en
    réduisant lespace des catégories dobjet, des
    échelles et des positions à examiner et en
    focalisant lattention
  • Context-Based Vision System for Place and Object
    Recognition,
  • A. Torralba, K. P. Murphy, W.T. Freeman, M. A.
    Rubin, AI Memo 2003-005

14
Méthodes discriminativesdescripteurs locaux et
invariants
  • Rechercher à partir de la base dexemple des
    régions invariantes aux changements déchelle et
    aux transformations affines pour des images
    prises de points de vue différents.
  • Ces régions permettent de calculer des
    descripteurs locaux invariants.
  • Ici sont présentées les régions mises en
    correspondance entre les deux images.
  • (Cordelia Schmidt)

Modéliser seules les variabilités qui sont utiles
15
Modéliser lapparence locale
  • Utiliser les réponses à des détecteurs locaux 3
    types de détecteurs, à base 2 (A et B), 3 (C ) ou
    4 (D)
  • On calcule la différence entre la somme des
    points dans les zones blanches et les zones
    grises
  • Sachant que la taille du détecteur est 24x24, on
    dispose de 45,396 descripteurs
  • Hypothèse un très petit nombre de telles
    caractéristiques peuvent être combinées pour
    constituer un classifieur
  • Problème les trouver --gt apprentissage par
    raffinement successif (Adaboost)

P. Viola, M.Jones, Robust Real-time Object
Detection, Second Int. Workshop on statistical
and computational theories of vision, Vancouver
2001
16
Application à la détection de visages
Les 2 caractéristiques les plus discriminantes
sélectionnées par AdaBoost à partir dune base
dimages de visages.
  • Le premier descripteur exprime la différence
    dintensité entre la zone des yeux et la zone des
    pommettes
  • Le second descripteur mesure la différence
    dintensité entre les yeux et la zone au dessus
    du nez
  • Détection correcte de 100 des visages, rejet
    denviron 60 des non-visages

17
Apparence locale vs méthodes génératives
  • Object Class Recognition by Unsupervised
    Scale-Invariant Learning, R. Fergus, P. Perona,
    A. Zisserman, CVPR 2003 (best paper prize)
  • A method to learn and recognize object class
    models from unlabeled and unsegmented cluttered
    scenes involving occluded objects in a scale
    invariant manner
  • Objects are modelled as a constellation of parts
    (regions that are salient over both scale and
    location) each described by its location scale
    and appearance

18
A generative probabilistic model
  • A model has a fixed number of parts (typically
    5-7) which model the properties of regions on the
    object (the foreground model) and a clutter model
    which models the remaining regions in the
    background of the image.
  • The relative location of the parts is modeled by
    a joint Gaussian density. The remaining regions
    (clutter model) are assumed to occur uniformly
    and independently over the image, so are modeled
    with a uniform density.
  • The appearance of each part is modeled by a
    Gaussian in the 15-dimensional PCA space. The
    background regions are also modeled by a fixed
    Gaussian density.
  • The scale of each part is also modeled by a
    Gaussian, with the background regions assumed to
    be distributed uniformly over scales.
  • To handle occlusion, we model the probability of
    each part being present.
  • Finally, we model the number of background
    detections expected in the image with a Poisson
    distribution.

19
Learning a model as a consistent constellation of
parts
  • Hypothesis the object instance is the only
    visually consistent thing across all training
    images, with the background of the objects being
    random in nature
  • By modeling this consistency  across the training
    images, we model the object itself
  • We start off with a random assignment for
    parameter settings. These initial parameters give
    rise to some  best  region assignment. The
    remaining regions are assigned to the background
    model the EM algorithm then iterates,
    alternatively optimizing the parameters and the
    assignments to find the optimal settings for
    both.
  • After a few iterations, the model chooses the
    most stable and consistent configuration of
    regions, with the more random regions in the
    background being assigned to the background
    model.

20
  • On the left we show the shape model. Each part of
    the model is shown in a different colour. The
    mean location is indicated by the cross, with the
    ellipse showing the uncertainty in location. The
    number by each part is the probability of that
    part being present.
  • On the right, we show examples of regions which
    are closest to the mean of the appearance density
    of each part. The eyes and hairline features seem
    to be preferred.

21
Some results
  • The size of the ellipse corresponds to the size
    of the region.
  • Notice the man in the top right has very little
    hair, so the hairline features are not picked up
    but since occlusion is modeled, the model still
    copes.

22
Le mouvement une contrainte de cohérence
supplémentaire
  • Using Temporal Coherence to Build Models of
    Animals, Deva Ramanan, D. A. Forsyth, IEEE
    International Conference on Computer Vision
    (ICCV2003)
  • Une base de données comportant des vidéos
    danimaux le modèle de lapparence est une
    approximation dune vue du corps sous la forme
    dun assemblage de rectangles (segments) texturés
    et colorés
  • On procède tout dabord à la détection des
    segments (recherche de lignes de contraste
    parallèles selon différentes orientations et
    différentes échelles)
  • Chaque segment est décrit par un vecteur
    caractéristique qui contient des informations sur
    la forme (la longueur et la largeur) du segment
    et sa couleur (histogramme normalisé)
  • Les segments proches en apparence sont ensuite
    regroupés (clustering par méthode
    non-paramétrique), sils sont visibles sur
    plusieurs frames successifs et ne violent pas une
    contrainte cinématique les clusters immobiles
    sont rejetés
  • Létape suivante est dassembler les segments en
    objets plus complexes on procède
    incrémentalement à partir du corps de lanimal,
    plus facile à détecter, puis en lui associant les
    autres parties (comme la main, la jambe, le cou
    et la tête) selon leur distance relative avec le
    corps (inférences complexes)

23
(No Transcript)
24
Adapter coupler reconnaissance et segmentation
  • Interleaved Object Categorization and
    Segmentation, Bastian Leibe and Bernt Schiele,
    BMVC 2003
  • La connaissance est exprimée comme un
    dictionnaire associant
  • un ensemble de patch de taille fixe (25x25)
    correspondant à des zones riches en informations
    caractéristiques
  • aux masques de segmentation correspondant
  • Les modèles de patch sont construits par
  • extraction de points dintérêt dans les images
    (opérateur de Förstner, détecteur de Harris),
  • extraction des patchs autour de ces points
    dintérêt,
  • regroupement de patchs similaires par un
    algorithme de clustering agglomératif
  • On dispose pour chaque image de la base (160
    images correspondant à 60 vues de 10 objets dune
    même catégorie) dun masque de segmentation
    figure-fond

25
Les entrées du dictionnaire
26
Utilisation du dictionnaire
  • A chaque cluster est associé un représentant
    auquel on associe toutes les positions
    rencontrées pour ce cluster dans la base dimages
    et les masques de segmentation des patchs
    correspondants
  • Voitures 2519 clusters, 20359 masques de
    segmentation
  • Phase de reconnaissance
  • Extraction des patchs (points dintérêt) pour
    limage à analyser
  • Comparaison au vocabulaire plusieurs résultats
    possibles
  • Les entrées activées votent pour une position
    possible
  • On garde la position la plus probable
  • On peut affiner lhypothèse en examinant tous les
    patchs dans son voisinage (pas seulement ceux qui
    correspondent à un point dintérêt) On obtient
    une représentation grossière de lobjet
  • Pour un point de limage, sa probabilité de
    segmentation est calculée par la somme des
    probabilités issues de tous les patch qui le
    recouvrent

27
(No Transcript)
28
(No Transcript)
29
Beaucoup de questions ouvertes
  • Constitution des corpus ?
  • Usage des modèles ?
  • Stratégie dapprentissage ?
  • Interaction homme-machine ?
Write a Comment
User Comments (0)
About PowerShow.com