ACS et Squences Comportementales en environnements nonmarkoviens - PowerPoint PPT Presentation

1 / 19
About This Presentation
Title:

ACS et Squences Comportementales en environnements nonmarkoviens

Description:

Processus de d cision dans lequel des r gles (ou classeurs) sont en comp tition ... BS-classeur est cr combinant le pr c dent classeur actif et le classeur Cl ... – PowerPoint PPT presentation

Number of Views:40
Avg rating:3.0/5.0
Slides: 20
Provided by: M1074
Category:

less

Transcript and Presenter's Notes

Title: ACS et Squences Comportementales en environnements nonmarkoviens


1
ACS et Séquences Comportementales en
environnements non-markoviens
  • Marc Métivier
  • LIAP5
  • Université René Descartes
  • 45 rue des Saints-Pères
  • 75006 Paris

2
Les Systèmes de Classeurs (1)
  • Learning Classifier System (LCS)
  • Processus de décision dans lequel des règles (ou
    classeurs) sont en compétition pour diriger le
    système
  • Format classique des classeurs (C A, P)
  • C partie conditions (chaînes de symboles)
  • (dont le symbole particulier "" ou
    "DONT_CARE")
  • A partie action (chaîne de symboles)
  • P partie paramètres (qualité du classeur)
  • Exemple de classeur (0101 01, 45)

3
Les Systèmes de Classeurs (2)
  • Un LCS gère une population de classeurs
  • A chaque cycle
  • Calcul de l'intérêt de chaque action
  • Sélection d'une action
  • Renforcement des classeurs
  • Création de nouveau classeurs
  • Elimination de classeurs

4
ACS Anticipatory Classifier System
  • Présenté par Wolfgang Stolzmann (1997)
  • Un Système de Classeurs (LCS) où la structure des
    classeurs est munie d'une Partie Effet
  • ACS développe de manière latente un modèle de
    l'environnement

5
The ACS Framework
  • Le classeur (C - A - E ? M, q, r)
  • C partie condition
  • A partie action
  • E partie effet
  • M la marque
  • q qualité d'anticipation
  • r prédiction du gain

6
Le Problème des Ambiguïtés Perceptives
  • Etats ambigus
  • états distincts de l'environnement perçus comme
    identique par le système
  • La propriété de Markov
  • La condition selon laquelle un environnement de
    contient pas d'états ambigus

7
Séquences Comportementales
  • Séquences Comportementales dans ACS
  • Wolfgang Stolzmann,1999 ACS utilise des
    classeurs à séquence comportementale pour
    autoriser la planification d'actions dans les
    environnements non-markoviens
  • Objectifs
  • Une implémentation d'ACS avec Séquences
    Comportementales, mais sans planification
  • Une étude des différentes propriétés des
    environnements non-markoviens qui permettent
    l'utilisation des séquences comportementales

8
Classeurs à séquence comportementale
  • Séquence comportementale suite d'actions
  • cl (Ccl - Acl - Ecl ? Mcl) est un BS-classeur
    si
  • Acl (ai)i1..s et 1 lt s ? BSmax,
  • ai sont des actions
  • s est la taille de la séquence dans cl
  • BSmax est le nombre maximum d'actions autorisé
    dans les séquences représentées dans le système

9
BS-ACS
  • BS-ACS est le système résultant de l'ajout des
    séquences comportementales dans ACS
  • Principe général
  • les classeurs peuvent proposer des séquences
    comportementales au lieu de simple actions
  • Seules les séquences comportementales permettant
    d'éviter la prise de décision dans des états
    ambiguës sont développées
  • Pourquoi ACS ?
  • L'anticipation perceptive permet la combinaison
    de plusieurs classeurs en un BS-classeur
  • Le mécanisme de marque permet de détecter les
    ambiguïtés

10
Sélection de comportement
  • Sélection d'un classeur actif au lieu d'une
    action.
  • Le système exécute la partie action du classeur
    actif.
  • Méthode de sélection de classeur
  • avec une probabilité px sélection aléatoire
  • sinon sélection roulette-wheel avec pour force
    (r q)

11
Création des BS-Classeurs
  • Détection des états ambigus
  • Si un classeur Cl anticipe correctement dans un
    état S mais est marqué avec S
  • Alors S est considéré comme état ambigu
  • Si un état ambigu est détecté
  • un nouveau BS-classeur est créé combinant le
    précédent classeur actif et le classeur Cl

12
Mise à jour des classeurs pendant l'exécutions
d'une séquence
  • Ensemble d'Apprentissage
  • classeurs du match set ayant la séquence
    courante comme partie action
  • La mise à jour des qualité d'anticipation des
    classeurs n'est effectuée qu'à la fin de la
    séquence
  • Evitement des séquences cycliques
  • Si un état est perçu plusieurs fois pendant
    l'exécution, la qualité de tous classeurs de
    l'ensemble d'apprentissage est pénalisée.

13
Expériences (1)
  • Expériences dans trois environnements
    non-Markoviens de complexité croissante
  • Deux types d'expériences
  • Tests d'apprentissage latent
  • Tests de maximisation du gain

14
Expériences (2)
  • Une expérience est composée de problèmes
  • Un problème
  • L'agent est placé aléatoirement dans une cellule
    vide
  • L'agent se déplace sous le contrôle de BS-ACS
  • Le problème se termine quand il atteint la
    nourriture
  • L'agent perçoit ses huit cellules voisines

15
Expériences dans Woods100
  • Avec BSmax 1,
  • Modèle de l'environnement incomplet
  • Performances de maximisation du gain en
    augmentation constante. Elles sont pires que
    celles d'un comportement totalement aléatoire.
  • Avec BSmax 2,
  • Modèle complet de l'environnement
  • Performances de maximisation du gain convergent
    vers 2.3

16
Expériences dans E1
  • Avec BSmax 1,
  • Modèle de l'environnement incomplet
  • Performances de maximisation du gain convergent
    vers 4
  • Avec BSmax 2,
  • Modèle complet de l'environnement
  • Performances de maximisation du gain convergent
    vers 3.3

17
Expériences dans E2
  • Apprentissage latent
  • Un BSmax de 3 est nécessaire pour développer un
    modèle complet de l'environnement.
  • Maximisation du gain
  • Un BSmax de 2 est suffisant pour obtenir des
    performances stable autour de 6
  • Avec BSmax de 3, les performances converges vers
    6.3
  • Ces performances restent deux fois supérieures à
    l'optimum absolu

18
Analyse des résultats dans E2
  • Peu de séquences sont utilisées pou atteindre la
    nourriture
  • La politique classique consiste à longer les
    bords pour atteindre un coin
  • Quel que soit BSmax (2 ou 3), la politique pour
    atteindre la nourriture est la même.

19
Conclusions
  • Limites des séquences comportementales
  • Elles ne permettent pas de lever les ambiguïtés
    mais seulement de les éviter
  • Un efficacité dépendante de la position des états
    non-ambiguës
  • Travail futur concernant ACS
  • utiliser la capacité de détection des ambiguïtés
    de ACS pour développer des classeurs utilisant la
    mémoire des états passés
Write a Comment
User Comments (0)
About PowerShow.com