HDR - PowerPoint PPT Presentation

About This Presentation
Title:

HDR

Description:

Apprentissage du contr le moteur : le geste l mentaire Olivier Sigaud ISIR Olivier.Sigaud_at_lip6.fr 01.44.27.88.53 – PowerPoint PPT presentation

Number of Views:520
Avg rating:3.0/5.0
Slides: 57
Provided by: Siga84
Category:
Tags: hdr | robotique

less

Transcript and Presenter's Notes

Title: HDR


1
Apprentissage du contrôle moteur le geste
élémentaire
Olivier Sigaud ISIR Olivier.Sigaud_at_lip6.fr 01.44.2
7.88.53
2
Introduction générale
3
Nature de lIA
  • Un modèle est une construction intellectuelle
    visant à expliquer des données expérimentales
  • Un système est un artefact doté de propriétés
    désirables
  • IA faire des modèles (de lintellect) qui sont
    aussi des systèmes
  • Human Problem Solving données expérimentales
    sur la résolution de problème chez lhomme gt GPS
  • Déboires de lIA symbolique  forte  de
    systèmes, moins de modèles

4
Approche animat
  • Ancrée dans linteraction avec lenvironnement
  • Centrée sur les mécanismes adaptatifs du vivant
  • Apprentissage, évolution, développement
  • Adaptation face à limprévu
  • Fort ancrage dans la neurophysiologie
  • Modèles animaux pour des systèmes  simples 

5
Des robots robustes, mais simplistes
Raisonnement
Planification
Langage, symboles
Navigation
Sélection de laction
6
Des robots complexes, mais fragiles
Faire face à la fragilité des systèmes
 ingénieur 
7
Approche animat et contrôle moteur
Raisonnement
Planification
Langage, symboles
Navigation
Sélection de laction
Commande motrice
8
Objectifs complémentaires
Commande des systèmes redondants, contraints et
sous-actionnés
Modélisation et compréhension du système moteur
humain
Assistance, et rééducation de pathologies neuro-m
otrices
9
Cadre idéal pour la modélisation
  • Complexité mécanique et automatique les
    biologistes ont besoin des théoriciens
  • Complexité des fonctions motrices à réaliser
    les théoriciens ont besoin des biologistes (la
    bonne vieille automatique ne suffit pas)
  • Des retombées fondamentales importantes du côté
    des pathologies (maladie de Parkinson,
    hémiplégie)
  • Des retombées applicatives importantes du côté de
    la robotique et des humains virtuels

10
DINO Assistance au mvt pathologique
Mouvements de référence
observateur prédictif neuronal
S

Etat/Comportement postural
Superviseur flou
Compensation des réflexes pathologiques via un
robot dassistance
Intention/Etat
Le robot comme support de modélisation
11
DINO Réhabilitation neuro-motrice
Pasqui, et al. (2007). Pathological sit-to-stand
models for control of a rehabilitation robotic
device . IEEE ICRR, 347-355
12
Applications mini-robots
Un marché en croissance fulgurante
Bon cadre pour lapprentissage, faute de modèles
précis (bruit)
Servo-moteurs
Robonova
13
Applications HRP-2
Cadre dun projet franco-japonais
Un défi technologique
ASIMO, HOAP3, iCub
Intermédiaire NAO
Servo-moteurs encore
HRP-2
14
Applications Arboris
Un simulateur flexible
Commande en couples plutôt que servo-moteurs
Commande en muscles si on veut
Plate-forme idéale pour la modélisation et la
mise au point de lapprentissage
Arboris
15
Bras commandé en muscles
16
Le contrôle moteur humain
17
Un système extrêmement complexe
  • Système poly-articulé, redondant, non-holonome,
    sous-actionné, sur-actionné
  • Plus de 200 os
  • Environ 600 muscles
  • Système Soumis à des contraintes déquilibre,
    fragile
  • Capteurs/actionneurs imprécis et très lents
  • Grande complexité des aires cérébrales impliquées
    dans le contrôle moteur

18
Une littérature considérable
  • Albus 72 CMAC
  • Avancée très rapide des neurosciences (imagerie)
  • Manque de compréhension globale
  • Rôle clef des modélisateurs, théoriciens et
    roboticiens
  • Modèles computationnels vs neuro-mimétiques

19
Invariants, synergies
  • Nombreux invariants malgré la redondance
  • Ils peuvent venir
  • du système musculo-squelettique
  • de la formulation des tâches
  • de la structure du contrôleur
  • de critères écologiques

20
Invariants du contrôle moteur (1)
Courbure des mouvements de reaching (loi de
puissance 2/3)
Profil de vitesse en cloche
21
Invariants du contrôle moteur (2)
Dispersion terminale f(direction du but)
22
Loi de Fitts (précision/vitesse)
Model
Plus on a besoin de précision terminale, moins on
va vite
23
Latences dans la commande
  • Visco-élasticité musculaire immédiat
  • Boucles spinales 30-60 ms
  • Mésencéphale 90 ms
  • Boucles supérieures gt 150 ms

24
Principes de commande
25
Minimum jerk
  • Flash et Hogan, 85 douceur le geste humain
    minimise lintégrale de la secousse (jerk,
    dérivée de laccélération)
  • Problème ne rend pas compte de la courbure des
    grands gestes

26
Minimum torque change
  • Uno et al., 89 douceur le geste humain
    minimise les variations de couples moteurs
  • Problème pourquoi ces critères-là, estimés
    comment ?
  • Quel avantage sélectif pour la  douceur  ?

27
Suivi de trajectoire / commande directe
  • Le minimum jerk est un critère  cinématique 
    il porte sur la trajectoire, pas sur les couples
    musculaires qui permettent de la réaliser
  • Recherche dune trajectoire optimale de
    référence, puis suivi de cette trajectoire
  • Au contraire, le minimum torque change impose
    doptimiser directement les couples musculaires
    pas de séparation entre détermination dune
    trajectoire et exécution
  • Dualité au cœur des modèles récents (cf. cours 3)

28
Commande en feedback instabilité
Nécessité du feedforward pour stabiliser
29
Bruit moteur
  • Présence dun bruit moteur proportionnel à la
    commande
  • Saccumule au cours du temps, donc nuit à la
    précision
  • Critère minimiser la variance terminale
  • La commande minimise lactivité musculaire pour
    minimiser le bruit moteur
  • Minimum intervention principle (TodorovJordan)
  • Elle joue sur les DdL redondants le bruit est
    concentré sur les dimensions non pertinentes pour
    la tâche

30
Architecture de commande

31
SOFC
  • La commande est stochastique (tient compte du
    bruit)
  • Elle est optimale (minimise un critère)
  • Elle est en feedback (correction de trajectoire
    en fonction de létat courant)
  • HarrisWolpert 98 (OFC bruit moteur)
  • Todorov 02, 04 (SOFC)
  • Guigon 07 (TOFC)
  • Guigon latteinte du but nest pas un critère à
    optimiser, cest une des contraintes

32
Méthodes candidates
  • Commande optimale problèmes dapplicabilité en
    grandes dimensions
  • Thèse Weiwei Li (06) méthodes itératives, iLQG
    (10 DdL)
  • Fast NMPC (Diehl 06) 30 DdL
  • Natural Policy Gradient (Peters 07) robots
    réels
  • Dans tous les cas, technicité mathématique,
    optimisation
  • Suppose laccès à un modèle de la dynamique
  • Le modèle de la dynamique est généralement donné

33
Adaptation motrice
34
Paradigme expérimental
Shadmehr et Mussa-Ivaldi 94
35
Déviation due au champ de force
Shadmehr et Mussa-Ivaldi 94
36
Correction progressive
Shadmehr et Mussa-Ivaldi 94
37
After-effect
  • After-effect si on retire brutalement le champ,
    la main réalise une trajectoire symétrique

38
Conclusions 1
  • Hypothèse 1 le crochet final vers le but
    résulte du déclenchement dun module de
    correction (replanification)
  • Hypothèse 2 le crochet final vers le but
    résulte dune commande en feedback
  • Hypothèse 3 la correction progressive résulte
    dun apprentissage du modèle de la dynamique
  • Simulation H2 H3 expliquent les données
  • Généralisation motrice trouver la forme du
    modèle corrigé par lapprentissage (paramètres et
    fonction dapproximation)

39
Vision  batch  de lapprentissagedun modèle
40
Vision incrémentale (1)
41
Vision incrémentale (2)
42
Vision incrémentale (3)
43
Vision incrémentale (4)
Ne prend pas en compte le problème de la
perception indirecte de létat du système
44
SOFC Wolpert et al.
45
Létat est caché
46
Pourquoi cest plus dur
  • En cas derreur sur Y estimé, faut-il corriger
    lestimateur sensoriel, lestimation détat
    courante ou bien lestimateur détat ? Létat est
    une variable cachée
  • Filtre de Kalman estimation et apprentissage
    optimal
  • Mais couplage avec commande optimale
  • Voir Weiwei Li 2006 (Todorov)

47
Généralisation motrice
48
Paradigme expérimental
Le sujet apprend dans un des domaines (par
exemple à droite) puis est testé dans un autre
(par exemple à gauche) Va-t-il transposer le
champ appris ?
49
Jacobienne
dx
Déplacement dun point de fonctionnement dans un
référentiel lié à un but
dy
dq3
dq2
Déplacement des angles articulaires
dq1
X(x,y) Q(q1,q2,q3)
dX J(Q) dQ
50
Résultats
  • Trajectoires de la main dans un espace de travail
    2 après avoir appris le champ dans un espace 1.
    On joue sur la forme du champ
  • Hyp A généralisation dans lespace de la tâche
    (invariant par translation)
  • Hyp B généralisation dans lespace articulaire
    (couples invariants)
  • En modifiant la forme des champs, résultat B
    lemporte sur A

51
Direction préférée (Donchin et al.)
  • Dun muscle
  • Lapprentissage modifie la direction préférée
    dun muscle
  • Dun neurone dune population
  • Lapprentissage modifie la direction préférée
    dune population de neurones
  • Autres questions
  • effets de catch trials où lon supprime le champ
  • trajectoire de référence modifiée
    (sur-compensation)
  • A rapprocher de SamejimaDoya (2007)

52
Implémentation dun modèle
  • Thèse Camille Salaün
  • Apprentissage du modèle par RLS
  • Loi de commande par LQC
  • Application à un 3Rplan
  • Utilisation de IMTI inutile sur
    verticalisation
  • Perspectives à court terme LWPR iLQG

53
Forward models linéaires par morceaux
IMTI
Fondé sur RLS
54
Remarques
  • Si lacteur fonctionne par programmation
    dynamique, on a un modèle typique dapprentissage
    par renforcement indirect
  • La programmation dynamique est la contrepartie
    discrète et stochastique de la commande optimale
    (continue et généralement déterministe)
  • Idée de combiner apprentissage supervisé du
    modèle et apprentissage par renforcement du
    contrôleur

55
Conclusions
  • Sujet de M2 implémenter LWPR iLQG sur un bras
    simulé, puis voir comment retrouver les bonnes
    propriétés de généralisation motrice et les
    effets des catch trials

56
Synthèse
  • Un geste élémentaire est
  • spécifié dans lespace des tâches
  • dirigé par une commande basée modèle avec
    feedback
  • conforme à un principe dintervention musculaire
    minimale
  • obtenu par apprentissage
  • La modélisation est aux mains des théoriciens et
    ingénieurs plutôt que des biologistes
  • Cette modélisation se fait au niveau des
    principes computationnels et/ou neuro-mimétiques
Write a Comment
User Comments (0)
About PowerShow.com