Title: Antoine CORNUJOLS 1
1Apprentissage Artificielet robotique une
introduction
- Antoine CORNUÉJOLS 1 Laurent MICLET 2
1 L.R.I., Université de Paris-Sud, Orsay
(France) 2 ENSSAT IRISA, Lannion antoine_at_lri.fr
http//www.lri.fr/antoine/ miclet_at_enssat.fr
http//www.enssat.fr/miclet/
21- Quel objectif ? (1)
- Association
- Imitation
- Apprentissage de comportement
- Apprendre à marcher (insectoïdes de Brooks)
- Apprendre à se comporter sur une planète
- Apprendre à mieux jouer
- S'adapter à l'adversaire
- Ne pas répéter ses fautes
- Apprendre à jouer en équipe
- Équipes de robots
31- Quel objectif ? (2)
- Apprentissage pour la navigation
- Apprentissage de trajets (fourmis, abeilles)
- Robots dans un environnement mal connu
- Discrimination
- Identification de sous-marins vs. bruits naturels
- Identification de locuteur / de signature
- Code postal
- Reconnaissance de l'écriture manuscrite, de la
parole - Catégorisation
- E.g. SKY SURVEY
41- Quel objectif ? (3)
- Apprendre à filtrer l'information
- Apprendre les préférences d'un utilisateur
- Apprendre à faire des résumés
- Révision de théorie
- Découverte scientifique
- Découverte de régularités (en biochimie, )
- Apprendre un langage (e.g. Steels, )
- ...
51- Types dapprentissages
- Apprentissage supervisé
- À partir de léchantillon dapprentissage S
(xi, ui)1,m on cherche une loi de dépendance
sous-jacente - Par exemple une fonction h aussi proche possible
de f (fonction cible) tq ui f(xi) - Ou bien une distribution de probabilités P(xi,
ui) - afin de prédire lavenir
61 - L'induction supervisée
- Si f est une fonction continue
- Régression
- Estimation de densité
- Si f est une fonction discrète
- Classification
- Si f est une fonction binaire (booléenne)
- Apprentissage de concept
71- Types dapprentissages
- Apprentissage non supervisé
- De léchantillon dapprentissage S (xi)1,m
on cherche des régularités sous-jacente - Sous forme dune fonction régression
- Sous forme de nuages de points (e.g. mixture de
gaussiennes) - Sous forme dun modèle complexe (e.g. réseau
bayésien) - afin de résumer, détecter des régularités,
comprendre
81- Types dapprentissages
- Apprentissage par renforcement
- Les données dapprentissage
- Une séquence de perceptions, dactions et de
récompenses (st, at, rt)t 1, - Avec un renforcement rt
- rt peut sanctionner des actions très antérieures
à t - Le problème inférer une application
situation perçue ? action afin de maximiser un
gain sur le long terme
Environnement
Action
Perception
Récompense
Apprentissage de réflexes ... -gt
apprentissage de planification
92- Le scénario de base
x1, x2, ..., xm
Environnement X distribution de prob. F(x)
Oracle
Sm (x1,u1), (x2,u2), ..., (xm,um)
Apprenant h (x)
x1, x2, ..., xm
y1, y2, ..., ym
102- Apprendre ? prédiction dans X
- Méthodes par plus proches voisins
- Nécessité dune notion de distance
- Hypothèse de continuité dans X
112- Apprendre un jeu entre espaces
- Cas particulier de lapprentissage de concepts
LH
122- Apprendre un jeu entre espaces
-
-
-
h
x
-
-
-
-
-
-
Espace des exemples X
Espace des hypothèses H
- Comment choisir une hypothèse ?
- Quel critère inductif ?
132- Apprendre un jeu entre espaces
Nouvel
-
exemple
-
-
hi
-
x
?
-
?
-
hk
x
-
x
hj
-
-
-
Espace des exemples X
Espace des hypothèses H
142- Les interrogations fondamentales
- 1. Théorique Sous quelles conditions est-il
possible de résoudre le problème de
linduction ? - De quelle information doit-on disposer ?
- Dans les entrées (les exemples)
- Dans l'espace d'hypothèses
- Quel principe inductif doit-on utiliser ?
- 2. Pratique Comment explorer effectivement
lespace dhypothèses ?
152- Trois questions fondamentales
- Quel critère inductif ?
- Quelle hypothèse devrait-on choisir étant donné
léchantillon dapprentissage ? - Quel espace dhypothèses ?
- Quel espace dhypothèses est approprié
- Comment explorer lespace des hypothèses ?
- Résolution dun problème doptimisation
163.1- Les critères de performance
- Objectif trouver une hypothèse h ? H minimisant
le risque réel (espérance de risque, erreur en
généralisation)
Loi de probabilité jointe sur X ? Y
Fonction de perte
Étiquette prédite
Étiquette vraie (ou désirée)
173.1- Exemples de fonctions de pertes
- Discrimination
- Régression
- Estimation de densité
183.1-
Les grands principes inductifs
- Principe de minimisation du risque empirique
(ERM) - Principe du maximum de vraisemblance
(approche bayésienne) - Principe de compression maximale
Intelligibilité des résultats (hypothèses
produites)
193.1- (i) Le principe inductif ERM
- On ne connaît pas le risque réel, en particulier
pas la loi de probabilité P(X,Y). - Le principe ERM (minimisation du risque
empirique) prescrit de chercher lhypothèse h ? H
minimisant le risque empirique
203.1- (ii) Approche bayésienne
- On suppose quil existe une distribution de
probabilités a priori sur lespace H pH(h) - Principe du Maximum A Posteriori (MAP)
- On cherche lhypothèse h la plus probable après
observation des données S - Exemple le 11 septembre 2001
213.1- (iii) Principe de compression maximale
- Inspiration la théorie du codage de
linformation - Rasoir dOccam
- On suppose quil existe
- un coût associé à la transmission dun codage
(modèle des données) L(h) - un coût associé à la transmission des données
brutes (E.D. h) L(xh) - On cherche le modèle (ou hypothèse) permettant la
transmission la plus économique de léchantillon
de données
223.2- Choix de lespace dhypothèses
- Apprendre (pour prédire) est impossible
- sans limitation sur
lespace des hypothèses
233.2- Notion de biais
- Toute connaissance qui restreint le champ des
hypothèses que l'apprenant doit considérer à un
instant donné. - On ne peut pas apprendre sans biais
- Plus le biais est fort, plus lapprentissage est
facile - Bien choisir le biais
243.2- Choix de lespace dhypothèses
- Il faut contrôler lexpressivité de lespace
dhypothèses
- Analyse statistique de linduction Vapnik,
Terme dépendant de la richesse de H
253.3- Résumé définition dun problème
dapprentissage
- Des acteurs
- Lenvironnement
- Loracle
- Lapprenant
- Une tâche dapprentissage
- Discrimination (ou classification multiclasses) /
régression / estimation de densité - Un principe inductif
- ERM (et dérivés) / Bayésien / compression
dinformation - Un espace dhypothèses (avec sélection
automatique)
un protocole dapprentissage
- Choix dune méthode dapprentissage (et dun
algorithme)
263.3 - Relation dinclusion et relation de
généralité
273.3 - La relation de généralité induite dans H
- Relation de généralité dans H induite par
la relation d'inclusion dans X
283.3 - Le choix dune méthode dapprentissage
Dépend fondamentalement de lespace des
hypothèses H
- Structuré par une relation de généralité (ordre
partiel) - Toutes les méthodes guidées par cette relation
- Espace des versions
- PLI (Programmation Logique Inductive)
- EBL, reformulation en général et révision de
théorie - Inférence grammaticale
- Seulement une notion de voisinage dans H
- Méthodes de gradient
- Réseaux de neurones / SVMs
- Recuit simulé / algorithmes dévolution simulée
- Réseaux bayésiens / HMMs
- Pas despace dhypothèses
- Méthodes de plus proches voisins (Raisonnement
par cas / Instance-based learning)
h
x
H
294- Apprentissage et robotique les limites
- Létat de lart actuel en apprentissage
- Données i.i.d. (indépendant et identiquement
distribué) - Distribution statique
- Données étiquetées
- Classes approximativement équilibrées
304- Apprentissage et robotique des méthodes
- Apprentissage par renforcement
- Pas despace dhypothèses
- Et signaux de renforcement pauvres, parcimonieux
et asynchrones - Mais tire parti de la dépendance entre états
- Apprentissage de séquence (prédiction temporelle)
- Inférence de HMM
- Par estimation statistique sur H (EM)
- Inférence grammaticale
- Tire profit de la structure de H
31Pour aller plus loin
- Le livre "L'apprentissage artificiel.
Concepts et algorithmes" A. Cornuéjols
L. Miclet. Eyrolles. 2002. - Les transparents Informations exercices
sur www.edition-eyrolles.com/
321- Les types dapprentissage
- Apprentissage supervisé
- À partir de léchantillon dapprentissage S
(xi, ui)1,m on cherche une loi de dépendance
sous-jacente - Par exemple une fonction h aussi proche possible
de f (fonction cible) tq ui f(xi) - Ou bien une distribution de probabilités P(xi,
ui) - afin de prédire lavenir