Title: HDR
1Apprentissage du contrôle moteur le geste
élémentaire
Olivier Sigaud ISIR Olivier.Sigaud_at_lip6.fr 01.44.2
7.88.53
2Introduction générale
3Nature de lIA
- Un modèle est une construction intellectuelle
visant à expliquer des données expérimentales - Un système est un artefact doté de propriétés
désirables - IA faire des modèles (de lintellect) qui sont
aussi des systèmes - Human Problem Solving données expérimentales
sur la résolution de problème chez lhomme gt GPS - Déboires de lIA symbolique forte de
systèmes, moins de modèles
4Approche animat
- Ancrée dans linteraction avec lenvironnement
- Centrée sur les mécanismes adaptatifs du vivant
- Apprentissage, évolution, développement
- Adaptation face à limprévu
- Fort ancrage dans la neurophysiologie
- Modèles animaux pour des systèmes simples
5Des robots robustes, mais simplistes
Raisonnement
Planification
Langage, symboles
Navigation
Sélection de laction
6Des robots complexes, mais fragiles
Faire face à la fragilité des systèmes
ingénieur
7Approche animat et contrôle moteur
Raisonnement
Planification
Langage, symboles
Navigation
Sélection de laction
Commande motrice
8Objectifs complémentaires
Commande des systèmes redondants, contraints et
sous-actionnés
Modélisation et compréhension du système moteur
humain
Assistance, et rééducation de pathologies neuro-m
otrices
9Cadre idéal pour la modélisation
- Complexité mécanique et automatique les
biologistes ont besoin des théoriciens - Complexité des fonctions motrices à réaliser
les théoriciens ont besoin des biologistes (la
bonne vieille automatique ne suffit pas) - Des retombées fondamentales importantes du côté
des pathologies (maladie de Parkinson,
hémiplégie) - Des retombées applicatives importantes du côté de
la robotique et des humains virtuels
10DINO Assistance au mvt pathologique
Mouvements de référence
observateur prédictif neuronal
S
Etat/Comportement postural
Superviseur flou
Compensation des réflexes pathologiques via un
robot dassistance
Intention/Etat
Le robot comme support de modélisation
11DINO Réhabilitation neuro-motrice
Pasqui, et al. (2007). Pathological sit-to-stand
models for control of a rehabilitation robotic
device . IEEE ICRR, 347-355
12Applications mini-robots
Un marché en croissance fulgurante
Bon cadre pour lapprentissage, faute de modèles
précis (bruit)
Servo-moteurs
Robonova
13Applications HRP-2
Cadre dun projet franco-japonais
Un défi technologique
ASIMO, HOAP3, iCub
Intermédiaire NAO
Servo-moteurs encore
HRP-2
14Applications Arboris
Un simulateur flexible
Commande en couples plutôt que servo-moteurs
Commande en muscles si on veut
Plate-forme idéale pour la modélisation et la
mise au point de lapprentissage
Arboris
15Bras commandé en muscles
16Le contrôle moteur humain
17Un système extrêmement complexe
- Système poly-articulé, redondant, non-holonome,
sous-actionné, sur-actionné - Plus de 200 os
- Environ 600 muscles
- Système Soumis à des contraintes déquilibre,
fragile - Capteurs/actionneurs imprécis et très lents
- Grande complexité des aires cérébrales impliquées
dans le contrôle moteur
18Une littérature considérable
- Albus 72 CMAC
- Avancée très rapide des neurosciences (imagerie)
- Manque de compréhension globale
- Rôle clef des modélisateurs, théoriciens et
roboticiens - Modèles computationnels vs neuro-mimétiques
19Invariants, synergies
- Nombreux invariants malgré la redondance
- Ils peuvent venir
- du système musculo-squelettique
- de la formulation des tâches
- de la structure du contrôleur
- de critères écologiques
20Invariants du contrôle moteur (1)
Courbure des mouvements de reaching (loi de
puissance 2/3)
Profil de vitesse en cloche
21Invariants du contrôle moteur (2)
Dispersion terminale f(direction du but)
22Loi de Fitts (précision/vitesse)
Model
Plus on a besoin de précision terminale, moins on
va vite
23Latences dans la commande
- Visco-élasticité musculaire immédiat
- Boucles spinales 30-60 ms
- Mésencéphale 90 ms
- Boucles supérieures gt 150 ms
24Principes de commande
25Minimum jerk
- Flash et Hogan, 85 douceur le geste humain
minimise lintégrale de la secousse (jerk,
dérivée de laccélération) - Problème ne rend pas compte de la courbure des
grands gestes
26Minimum torque change
- Uno et al., 89 douceur le geste humain
minimise les variations de couples moteurs - Problème pourquoi ces critères-là, estimés
comment ? - Quel avantage sélectif pour la douceur ?
27Suivi de trajectoire / commande directe
- Le minimum jerk est un critère cinématique
il porte sur la trajectoire, pas sur les couples
musculaires qui permettent de la réaliser - Recherche dune trajectoire optimale de
référence, puis suivi de cette trajectoire - Au contraire, le minimum torque change impose
doptimiser directement les couples musculaires
pas de séparation entre détermination dune
trajectoire et exécution - Dualité au cœur des modèles récents (cf. cours 3)
28Commande en feedback instabilité
Nécessité du feedforward pour stabiliser
29Bruit moteur
- Présence dun bruit moteur proportionnel à la
commande - Saccumule au cours du temps, donc nuit à la
précision - Critère minimiser la variance terminale
- La commande minimise lactivité musculaire pour
minimiser le bruit moteur - Minimum intervention principle (TodorovJordan)
- Elle joue sur les DdL redondants le bruit est
concentré sur les dimensions non pertinentes pour
la tâche
30Architecture de commande
31SOFC
- La commande est stochastique (tient compte du
bruit) - Elle est optimale (minimise un critère)
- Elle est en feedback (correction de trajectoire
en fonction de létat courant) - HarrisWolpert 98 (OFC bruit moteur)
- Todorov 02, 04 (SOFC)
- Guigon 07 (TOFC)
- Guigon latteinte du but nest pas un critère à
optimiser, cest une des contraintes
32Méthodes candidates
- Commande optimale problèmes dapplicabilité en
grandes dimensions - Thèse Weiwei Li (06) méthodes itératives, iLQG
(10 DdL) - Fast NMPC (Diehl 06) 30 DdL
- Natural Policy Gradient (Peters 07) robots
réels - Dans tous les cas, technicité mathématique,
optimisation - Suppose laccès à un modèle de la dynamique
- Le modèle de la dynamique est généralement donné
33Adaptation motrice
34Paradigme expérimental
Shadmehr et Mussa-Ivaldi 94
35Déviation due au champ de force
Shadmehr et Mussa-Ivaldi 94
36Correction progressive
Shadmehr et Mussa-Ivaldi 94
37After-effect
- After-effect si on retire brutalement le champ,
la main réalise une trajectoire symétrique
38Conclusions 1
- Hypothèse 1 le crochet final vers le but
résulte du déclenchement dun module de
correction (replanification) - Hypothèse 2 le crochet final vers le but
résulte dune commande en feedback - Hypothèse 3 la correction progressive résulte
dun apprentissage du modèle de la dynamique - Simulation H2 H3 expliquent les données
- Généralisation motrice trouver la forme du
modèle corrigé par lapprentissage (paramètres et
fonction dapproximation)
39Vision batch de lapprentissagedun modèle
40Vision incrémentale (1)
41Vision incrémentale (2)
42Vision incrémentale (3)
43Vision incrémentale (4)
Ne prend pas en compte le problème de la
perception indirecte de létat du système
44SOFC Wolpert et al.
45Létat est caché
46Pourquoi cest plus dur
- En cas derreur sur Y estimé, faut-il corriger
lestimateur sensoriel, lestimation détat
courante ou bien lestimateur détat ? Létat est
une variable cachée - Filtre de Kalman estimation et apprentissage
optimal - Mais couplage avec commande optimale
- Voir Weiwei Li 2006 (Todorov)
47Généralisation motrice
48Paradigme expérimental
Le sujet apprend dans un des domaines (par
exemple à droite) puis est testé dans un autre
(par exemple à gauche) Va-t-il transposer le
champ appris ?
49Jacobienne
dx
Déplacement dun point de fonctionnement dans un
référentiel lié à un but
dy
dq3
dq2
Déplacement des angles articulaires
dq1
X(x,y) Q(q1,q2,q3)
dX J(Q) dQ
50Résultats
- Trajectoires de la main dans un espace de travail
2 après avoir appris le champ dans un espace 1.
On joue sur la forme du champ - Hyp A généralisation dans lespace de la tâche
(invariant par translation) - Hyp B généralisation dans lespace articulaire
(couples invariants) - En modifiant la forme des champs, résultat B
lemporte sur A
51Direction préférée (Donchin et al.)
- Dun muscle
- Lapprentissage modifie la direction préférée
dun muscle - Dun neurone dune population
- Lapprentissage modifie la direction préférée
dune population de neurones - Autres questions
- effets de catch trials où lon supprime le champ
- trajectoire de référence modifiée
(sur-compensation) - A rapprocher de SamejimaDoya (2007)
52Implémentation dun modèle
- Thèse Camille Salaün
- Apprentissage du modèle par RLS
- Loi de commande par LQC
- Application à un 3Rplan
- Utilisation de IMTI inutile sur
verticalisation - Perspectives à court terme LWPR iLQG
53Forward models linéaires par morceaux
IMTI
Fondé sur RLS
54Remarques
- Si lacteur fonctionne par programmation
dynamique, on a un modèle typique dapprentissage
par renforcement indirect - La programmation dynamique est la contrepartie
discrète et stochastique de la commande optimale
(continue et généralement déterministe) - Idée de combiner apprentissage supervisé du
modèle et apprentissage par renforcement du
contrôleur
55Conclusions
- Sujet de M2 implémenter LWPR iLQG sur un bras
simulé, puis voir comment retrouver les bonnes
propriétés de généralisation motrice et les
effets des catch trials
56Synthèse
- Un geste élémentaire est
- spécifié dans lespace des tâches
- dirigé par une commande basée modèle avec
feedback - conforme à un principe dintervention musculaire
minimale - obtenu par apprentissage
- La modélisation est aux mains des théoriciens et
ingénieurs plutôt que des biologistes - Cette modélisation se fait au niveau des
principes computationnels et/ou neuro-mimétiques