Title: Modlisation du conditionnement pavlovien et du conditionnement oprant
1Modélisation du conditionnement pavlovien et du
conditionnement opérant
- Jean Marc Salotti
- Institut de Cognitique de Bordeaux
- salotti_at_idc.u-bordeaux2.fr
2Sommaire
- Introduction
- Conditionnement
- Modèles du conditionnement
- Idées fondamentales
- Apprentissage incrémental
- Simulateur
- Conclusion
31. Introduction
- EA487 équipe pluridisciplinaire en sciences de
la cognition et facteurs humains - I.A., neurosciences cognitives, psychologie
cognitive, épistémologie - Modélisation de processus cognitifs
- Robotique autonome
- Projet CNRS en neuroscience computationnelle
4- CNRS Project Plasticity of amygdala networks in
affective memories associated with opiate
withdrawal
5- Conditionnement
- Intérêt en robotique inspiration des modèles de
l'apprentissage comportemental animal - Conditionnement opérant dressage
- Conditionnement base de l'apprentissage
séquentiel ? - Mouvement séquence d'événements perceptuels et
moteurs - Traitement de l'information séquence
d'opérations mentales
61. Conditionnement
- 1) Conditionnement classique (CC3)
- (Cloche nourriture ? cherche nourriture ) x 3
gt Cloche ? cherche nourriture - 2) Extinction
- CC3 (cloche ? cherche nourriture) x 3
- gt Cloche ? ne fait rien
7- 3) Inhibition latente
- (Cloche ? rien) x 3 CC3
- gt Cloche ? rien
- (Cloche ? rien) x 3 CC5
- gt Cloche ? cherche nourriture
- 4) Blocking
- CC3 (ClocheLumièreNourr. ? ch. Nour) x 3
gt Lumière ? ne fait rien
8- 5) Conditionnement de second degré
- CC3 (LumièreClocheNour. ? ch. nour.) x 3
gt Lumière ? cherche nourriture - 6) Conditionnement opérant (dressage)
- (Appuie leviernourriture ? ch. nour.) x 3
- gt appuie levier ? cherche nourriture
- IL, blocking, conditionnement de 2nd degré,
- aussi pour le conditionnement opérant
92. Modéles du conditionnement
Modèle de Rescorla et Wagner
Vx "associative strength" d'un stimulus
X Rescorla R.A. and Wagner A.R., A theory of
Pavlovian conditioning Variations in the
effectiveness of reinforcement and
nonreinforcement, In Black, A. H., Prokasy, W.
F. (Eds.), Classical conditioning II Current
research and theory, 64-99, New York
Appleton-Century-Crofts, (1972).
10TD modèle de Sutton and Barto
- Apprentissage par renforcement
- Système de prédiction Etat X gt Etat Y
- Lien avec réseaux de neurones
- Qu'est-ce qu'un état ???
- R.S. Sutton and A.G. Barto, 'A temporal-difference
model of classical conditioning', Proceedings of
the 9th Annual Conference of the Cognitive
Science Society, 355-378, 1987.
11- Autres travaux
- C. Balkenius and J. Morén, 'Computational models
of classical conditioning a comparative study',
in Mayer, J.-A. , Roitblat, H. L., Wilson, S. W.,
and Blumberg, B. (Eds.), From Animals to Animats
5. Cambridge, MA MIT Press, 1998. - N.A. Schmajuk, Y. Lam and J.A. Gray, 'Latent
inhibition A neural network approach', Journal
of Experimental Psychology Animal Behavior
Processes, 22 (3) 321349, 1996. - Computational models of classical conditioning
(Schmajuk) - http//www.scholarpedia.org/article/Computational_
models_of_classical_conditioning
123. Idées fondamentales
- Système de prédiction gt réseau bayésien
- Nud du réseau perception d'un stimulus
- Nud du réseau déclenchement du stimulus
- Et le changement de fréquence du métronome ?
- Et les actions ?
- Nud du réseau événement représentationnel !!!
- Evénement perceptif
- Début d'action
- Fin d'action
13- Caractéristiques de l'apprentissage
- - Apprentissage structurel (NP-difficile)
- - Apprentissage des paramètres
- Spécificités
- - Apprentissage sur peu d'exemples
- - Dynamique temporelle complexe
- - Evolution des paramètres ! (extinction,
réacquis. ) - - Dépend de l'ordre de présentation des
exemples !!! - - Réseaux simples !
14Réseau bayésien à apprendre
Cond. classique
Début aller vers nour.
Partie du réseau déjà apprise
Début appuyer levier
Fin appuyer levier
Cond. opérant
Lien SC action Prédit que, mais n'oblige
pas à
Récompense
154. Apprentissage incrémental
- Trace de chaque événement sur 5 secondes
- On observe E1 et E2.
- E1 E2 Ssi
- t(E2) -t(E1) lt 5s
- E2 n'était pas prédit par un E3, (1)
- ou alors E3E1
- E2 prédit une récompense (appr. motivé, évite
de complexifier inutilement le réseau) - (1) gt Activation des événements attendus
16Algorithme
- For each active trace Ax
- If reward present or expected
- For each active trace Ay (Y different from X)
- If (Eligible(Y)) or (W X-gtY gt0.5)
- If Start(X) lt Start(Y)
- For each finishing trace AX
- If Ax predicted a reward that did not occur
- Look for the set of possible mistaken stimuli
- For each mistaken stim. M and prediction Y
- If AX occurred without expectation of any Reward
and AX gt0.2 - AX k AX (inhib. latente)
17- règles ad hoc pour sélection et contrôle de
l'action !
185. Simulateur
196. Conclusion
- Construction incrémentale d'un réseau bayésien
(système de prédiction) permettant le
conditionnement classique et opérant - Perspectives
- SC composés, généralisation, réacquisition
spontanée, oubli - Apprentissage séquentiel motivé
- Apprentissage opératoire (Langage ? Maths ?)