Title: ACS et Squences Comportementales en environnements nonmarkoviens
1ACS et Séquences Comportementales en
environnements non-markoviens
- Marc Métivier
- LIAP5
- Université René Descartes
- 45 rue des Saints-Pères
- 75006 Paris
2Les Systèmes de Classeurs (1)
- Learning Classifier System (LCS)
- Processus de décision dans lequel des règles (ou
classeurs) sont en compétition pour diriger le
système - Format classique des classeurs (C A, P)
- C partie conditions (chaînes de symboles)
- (dont le symbole particulier "" ou
"DONT_CARE") - A partie action (chaîne de symboles)
- P partie paramètres (qualité du classeur)
- Exemple de classeur (0101 01, 45)
3Les Systèmes de Classeurs (2)
- Un LCS gère une population de classeurs
- A chaque cycle
- Calcul de l'intérêt de chaque action
- Sélection d'une action
- Renforcement des classeurs
- Création de nouveau classeurs
- Elimination de classeurs
4ACS Anticipatory Classifier System
- Présenté par Wolfgang Stolzmann (1997)
- Un Système de Classeurs (LCS) où la structure des
classeurs est munie d'une Partie Effet - ACS développe de manière latente un modèle de
l'environnement
5The ACS Framework
- Le classeur (C - A - E ? M, q, r)
- C partie condition
- A partie action
- E partie effet
- M la marque
- q qualité d'anticipation
- r prédiction du gain
6Le Problème des Ambiguïtés Perceptives
- Etats ambigus
- états distincts de l'environnement perçus comme
identique par le système - La propriété de Markov
- La condition selon laquelle un environnement de
contient pas d'états ambigus
7Séquences Comportementales
- Séquences Comportementales dans ACS
- Wolfgang Stolzmann,1999 ACS utilise des
classeurs à séquence comportementale pour
autoriser la planification d'actions dans les
environnements non-markoviens - Objectifs
- Une implémentation d'ACS avec Séquences
Comportementales, mais sans planification - Une étude des différentes propriétés des
environnements non-markoviens qui permettent
l'utilisation des séquences comportementales
8Classeurs à séquence comportementale
- Séquence comportementale suite d'actions
- cl (Ccl - Acl - Ecl ? Mcl) est un BS-classeur
si -
- Acl (ai)i1..s et 1 lt s ? BSmax,
- où
- ai sont des actions
- s est la taille de la séquence dans cl
- BSmax est le nombre maximum d'actions autorisé
dans les séquences représentées dans le système
9BS-ACS
- BS-ACS est le système résultant de l'ajout des
séquences comportementales dans ACS - Principe général
- les classeurs peuvent proposer des séquences
comportementales au lieu de simple actions - Seules les séquences comportementales permettant
d'éviter la prise de décision dans des états
ambiguës sont développées - Pourquoi ACS ?
- L'anticipation perceptive permet la combinaison
de plusieurs classeurs en un BS-classeur - Le mécanisme de marque permet de détecter les
ambiguïtés
10Sélection de comportement
- Sélection d'un classeur actif au lieu d'une
action. - Le système exécute la partie action du classeur
actif. - Méthode de sélection de classeur
- avec une probabilité px sélection aléatoire
- sinon sélection roulette-wheel avec pour force
(r q)
11Création des BS-Classeurs
- Détection des états ambigus
- Si un classeur Cl anticipe correctement dans un
état S mais est marqué avec S - Alors S est considéré comme état ambigu
- Si un état ambigu est détecté
- un nouveau BS-classeur est créé combinant le
précédent classeur actif et le classeur Cl
12Mise à jour des classeurs pendant l'exécutions
d'une séquence
- Ensemble d'Apprentissage
- classeurs du match set ayant la séquence
courante comme partie action - La mise à jour des qualité d'anticipation des
classeurs n'est effectuée qu'à la fin de la
séquence - Evitement des séquences cycliques
- Si un état est perçu plusieurs fois pendant
l'exécution, la qualité de tous classeurs de
l'ensemble d'apprentissage est pénalisée.
13Expériences (1)
- Expériences dans trois environnements
non-Markoviens de complexité croissante - Deux types d'expériences
- Tests d'apprentissage latent
- Tests de maximisation du gain
14Expériences (2)
- Une expérience est composée de problèmes
- Un problème
- L'agent est placé aléatoirement dans une cellule
vide - L'agent se déplace sous le contrôle de BS-ACS
- Le problème se termine quand il atteint la
nourriture - L'agent perçoit ses huit cellules voisines
15Expériences dans Woods100
- Avec BSmax 1,
- Modèle de l'environnement incomplet
- Performances de maximisation du gain en
augmentation constante. Elles sont pires que
celles d'un comportement totalement aléatoire. - Avec BSmax 2,
- Modèle complet de l'environnement
- Performances de maximisation du gain convergent
vers 2.3
16Expériences dans E1
- Avec BSmax 1,
- Modèle de l'environnement incomplet
- Performances de maximisation du gain convergent
vers 4 - Avec BSmax 2,
- Modèle complet de l'environnement
- Performances de maximisation du gain convergent
vers 3.3
17Expériences dans E2
- Apprentissage latent
- Un BSmax de 3 est nécessaire pour développer un
modèle complet de l'environnement. - Maximisation du gain
- Un BSmax de 2 est suffisant pour obtenir des
performances stable autour de 6 - Avec BSmax de 3, les performances converges vers
6.3 - Ces performances restent deux fois supérieures à
l'optimum absolu
18Analyse des résultats dans E2
- Peu de séquences sont utilisées pou atteindre la
nourriture - La politique classique consiste à longer les
bords pour atteindre un coin - Quel que soit BSmax (2 ou 3), la politique pour
atteindre la nourriture est la même.
19Conclusions
- Limites des séquences comportementales
- Elles ne permettent pas de lever les ambiguïtés
mais seulement de les éviter - Un efficacité dépendante de la position des états
non-ambiguës - Travail futur concernant ACS
- utiliser la capacité de détection des ambiguïtés
de ACS pour développer des classeurs utilisant la
mémoire des états passés