Title: Apprentissage
1Apprentissage
- Jean-François Bérubé
- Dans le cadre du cours IFT 6802
- Université de Montréal
- DIRO, 2 Avril 2003
2Introduction Pourquoi ?
- Approche classique de la conception dun agent
- Lintelligence de lagent est entièrement
introduite par le programmeur. - MAIS
- Le programmeur ne connaît pas toujours
parfaitement lenvironnement de lagent. - Dans un tel cas, lapprentissage peut être la
seule façon pour un agent dacquérir les
compétences dont il a besoin. - Nest-ce pas là une réelle forme dautonomie et
par le fait même dintelligence?
3Introduction Comment ?
- Apprendre pour un humain facile!
- Pour une machine difficile!!!
- On aura besoin dalgorithmes précis et parfois
complexes - Lapprentissage est un vaste domaine qui
chevauche linformatique, les statistiques et les
domaines précis des applications
4Plan de la présentation
- Lapprentissage aperçu général
- Modèle général dun agent qui apprend
- Présentation de quelques techniques
dapprentissage - Lapprentissage dans les systèmes multi-agents
- De lapprentissage mono-agent à multi-agents
- Quapprend un agent dans les SMA ?
- Caractéristiques multi-agents des apprentissages
- Conclusion
5Objectifs de lapprentissage
- Acquisition dune connaissance explicite par un
système informatique - Construction de nouvelles connaissances ou
amélioration de connaissances déjà existantes
inférence - Les perceptions dun agent ne devraient pas
seulement lui servir à choisir ses actions mais
aussi à améliorer ses capacités à agir
Russell Norvig - Objectif améliorer les performances du système
6Modèle dun agent qui apprend
Standard de performance
E n v i r o n n e m e n t
Senseurs
Unité de critique
feedback
changements
Module de performance
Module dapprentissage
connaissances
objectifs dapprentissage
Générateur de problèmes
Actions
Agent
Source Russell Norvig
7Les formes dapprentissage
- Supervisé
- Un exemple de la bonne solution est donné
pendant une phase dentraînement - Utilisé pour la classification, les régressions,
estimation de probabilités conditionnelles - Par renforcement
- Le système na pas accès à des exemples il a
cependant un feedback sur ses actions - Utilisé pour le contrôle des robots
8Apprentissage supervisé
- Exemple intuitif -
Une image profil dun cas
Anne
Exemple test
Jean
(
, ?)
Maude
Qui est-ce?
Eric
Paul
Ensemble des exemples dentraînement
(visage, identité)
Source Yoshua Bengio
9Apprentissage supervisé - Exemple intuitif (plus
proche voisin) -
Choisir lexemple dapprentissage dont le
profil (image) est le plus proche de celui
de lexemple test
identité Paul
plus proche voisin
Source Yoshua Bengio
10Apprentissage supervisé
- Deux phases -
- La phase dentraînement
- On présente des exemples au système
- Lagent apprend à partir des exemples
- La phase dapplication (ou dutilisation)
- Nouvelles situations jamais vues auparavant
- On demande à lagent de généraliser ce quil a
appris (faire un transfert)
11Apprentissage supervisé -
Généralisation -
- Idée mémoriser les paires (perception,action)
pour ensuite sen servir afin dinduire laction
à exécuter devant une situation nouvelle - On veut éviter que lagent apprenne par cœur
- Quil ne puisse que résoudre des problèmes quil
a déjà vus - On veut un apprentissage qui lui permette de
généraliser - Il doit savoir faire ressortir lessence des
exemples quil apprend
12Apprentissage supervisé -
Généralisation -
- Principe de la généralisation par induction
- Situation inconnue Induction de h, une
approximation (maximisation de la vraisemblance)
de la fonction f permettant dassocier une
perception à une action - Évaluer h(nouvelle situation) action
- Feedback mise-à-jour de la base de
connaissances (ou dexemples)
13Apprentissage supervisé -
Généralisation -
Pointillé la meilleure réponse possible
étant donnée lentrée (mais inconnue de
lapprenant)
Chaque point un exemple
Sortie valeur à prédire
Entrée profil du cas
Source Yoshua Bengio
14Apprentissage supervisé -
Généralisation -
On apprend par cœur mais ça ne généralise pas
bien de nouveaux cas. Erreur faible sur les
exemples dapprentissage mais élevée en test.
Source Yoshua Bengio
15Apprentissage supervisé -
Généralisation -
On a choisi un modèle trop simple (linéaire)
erreur élevée en apprentissage ET en test
Source Yoshua Bengio
16Apprentissage supervisé -
Généralisation -
Le modèle est suffisamment flexible pour capturer
la forme courbe
Source Yoshua Bengio
17Apprentissage supervisé
- Arbres de décision -
- Un arbre de décision permet de représenter un
ensemble de fonctions booléennes associées à une
activité de prise de décision - Input situation décrite par un ensemble de
propriétés - Output une décision (oui/non) relative à cette
situation - Principe
Propriétés dune situation Décision à prendre
Décision (oui/non)
18Apprentissage supervisé
- Arbres de décision -
Clients
Vais-je attendre ???
Aucun
Beaucoup
Peu
Non
Oui
Temps dattente
lt10
gt60
30-60
10-30
Non
Oui
Jai faim
Aller ailleurs
Oui
Non
Oui
Non
Oui
Jai réservé
Aller ailleurs
Ven ou sam
Oui
Oui
Non
Oui
Non
Non
Oui
Non
Oui
Bar
Oui
Il pleut
Non
Oui
Non
Oui
Non
Oui
Oui
Non
?r Clients(r,Beaucoup) ? Temps dattente(r,10-30)
? Jai faim(r,Non) ? Jattends(r)
Source Russell Norvig
19Apprentissage supervisé -
Apprendre des arbres de décision -
- Ensemble dentraînement
- Série dexemples dans lesquels toutes les
propriétés dune situation sont connues - Comment apprendre un arbre ?
- Un exemple gt un chemin dans larbre
- Arbres trop gros
- Quoi faire dans des situations inconnues ?
- Trouver larbre minimal est incalculable
- Des heuristiques permettent un compromis entre la
taille de larbre et la difficulté de calcul
20Apprentissage supervisé -
Apprendre des arbres de décision -
- Les heuristiques dapprentissage
- Classifier les exemples en considérant dabord
les variables les plus importantes celles qui
permettent dobtenir une décision le plus
rapidement - On continue dintroduire des variables permettant
dobtenir une décision à partir des conséquences
de sa variable parent - Les exemples impertinents sont éliminés
21Apprentissage supervisé
- Application des arbres de décision -
- Entraînement dun simulateur de vol
- Professeurs 3 pilotes expérimentés
- Enseignement chacun répète 30 fois un vol
prédéterminé - 90000 exemples sont créés
- Les exemples sont décrits par 20 variables
- Résultats
- Lélève dépasse ses maîtres!!
22Apprentissage supervisé
- Réseaux de neurones -
- Réseau composé de nœuds reliés entre eux par des
arcs auxquels des poids sont associés
Exemples
23Apprentissage par renforcement
- Apprentissage à laide dexemples
- Professeur gt exemples
- Modèle de lenvironnement gt faire des
prédictions - Fonction dutilité gt évaluer les actions
- Mais si on a rien de tout ça ???
- Utiliser les feedback reçus
- Aux échecs gagner constitue une récompense
- Au ping pong chaque point devient une
récompense
Reinforcement learning
24Apprentissage par renforcement
Principe
Action
Agent
Perceptions
Évaluation
Environnement
Positif?
Il faut apprendre les meilleurs actions à poser
et la façon dévaluer les perceptions
25Apprentissage par renforcement
- Applications -
- Joueur déchecs (Samuel 1959-1967)
- Utilisation dune fonction linéaire permettant
dévaluer les différentes positions - Les poids dans cette fonction sont appris par
reinforcement learning - Les décisions du joueur virtuel finissait par
sapprocher de celles des bons joueurs - Robots
- Utilisation dans les SMA
26Résumé
- Lagent apprend en observant
- leffet de ses actions
- Apprentissage par renforcement
- une série dexemples (supervisé)
- Induction darbres de décision
- Réseaux de neurones
27Références
- Bengio, Yoshua. Présentation sur les algorithmes
dapprentissage, www.iro.umontreal.ca/bengioy - Russell, S. et Norvig, P. Artificial Intelligence
A Modern Approach, Prentice-Hall, 1995, 932
pages.