Title: Ingnierie des connaissances:
1Ingénierie des connaissances Apprentissage
supervisé Jean-Marc Adamo
2Apprentissage Supervisé Position du Problème
2
- Apprentissage supervisé et construction de
systèmes experts. - Système expert
- Principe
- Expert(s)
- ? connaissances du domaine issues de
lexpérience, - ? mise en forme et représentation des
connaissances sous forme de règles, - ? utilisation du systèmes de règles dans la
construction dune procédure, - ? décision obtenue automatiquement par
lapplication de la procédure. - difficultés
- identification des règles difficile,
- identification des règles extrêmement coûteuse,
- systèmes de règles difficiles (impossibles) à
maintenir - - cohérence des systèmes de règles difficile à
garantir en pratique, - cohérence des systèmes de règles impossible à
garantir en théorie - problème indécidable (GÖDEL).
3Apprentissage Supervisé Position du Problème
3
Apprentissage supervisé et construction de
systèmes experts (Alternative). Apprentissage
supervisé Alternative à lextraction de
connaissances issues de lexpérience.
On renonce au recours à lexpert
et on cherche à apprendre de manière automatique
à partir de linformation précédemment mémorisée
(archives), par exemples - Domaine de la
banque fichier des clients classés dans le passé
pour catégoriser de nouveaux clients. -
Domaine de la chimie et de la biochimie fichier
des molécules déjà classées dans le passé pour
catégoriser de nouvelles molécules. On peut
alors espérer pouvoir prédire, économiquement,
certaines propriétés celles de la classe dans
laquelle elles ont été catégorisées. - Domaine
médical fichier des patients déjà examinés dans
le passé pour catégoriser de nouveaux
patients. On peut alors espérer pouvoir établir
un pré-diagnostic ou un pré-dépistage
automatique, peu coûteux et non invasif. -
Domaine des réseaux dinformation fichiers des
documents (pages Internet par exemple) déjà
classées pour catégoriser de nouveaux documents
(domaine de laide à la recherche de
documents composante essentielle des moteurs
de recherche sur internet). - Etc
4Apprentissage Supervisé Position du Problème
4
- Apprentissage supervisé Principe.
- - on sintéresse à une population dobjets
(individus), - - les objets sont décrits à laide dune liste
dattributs, - - chaque objet est identifié à la liste des
valeurs dattributs qui le caractérisent, - on connaît lensemble des classes dans
lesquelles les objets sont à classer, - on sait classer certains objets de la population
qui constituent un échantillon, - - à partir de léchantillon, on veut apprendre de
manière automatique - une procédure de décision qui soit capable de
classer automatiquement - tout autre objet de la population dont on
ignore la classe (généralisation).
on ne connaît pas la classe des objets
potentiellement infinie puisque certains
objets peuvent nexister quen intention
population
apprendre une procédure de décision applicable
(généralisable) à la population entière
échantillon
on connaît la classe des objets
5Apprentissage Supervisé Position du Problème
5
Apprentissage supervisé un exemple. - la
société Crédit Services est spécialisée dans le
montage de dossiers de crédits qui sont ensuite
adressés à un organisme bancaire, - sur la
totalité des dossiers présentés lorganisme
bancaire en rejette environ 25, - les 25
rejetés représentent une perte importante (le
travail effectué nest pas rémunéré). -
Crédit Services dispose darchives volumineuses
(plusieurs milliers de dossiers montés,
présentés et retournés avec la mention accepté ou
rejeté), - en utilisant ces archives,
Crédit Services souhaite construire une
procédure automatique de pré-classement qui lui
permettra de ne passer du temps que sur les
dossiers sur lesquels il pourrait y avoir un
doute. Dans cet exemple - population ensemble
des dossiers présents, passés et à venir, -
objets dossiers, - échantillon dossiers déjà
classés, - classes à prédire dossiers
acceptés et dossiers rejetés , - attributs
par exemple, lâge, la situation de famille, le
nombre denfants, la catégorie
professionnelle, la situation dendettement,
le revenu annuel, la possession d un compte
titre, etc...
6Apprentissage Supervisé Position du Problème
6
Apprentissage supervisé les attributs Les
attributs définissant les objets peuvent être de
différentes sortes - numérique continu par
exemple, lâge, - numérique discret par
exemple le nombre denfants, - catégoriel par
exemple, la catégorie professionnelle, -
binaire par exemple, la possession ou non dun
compte titre.
7Apprentissage Supervisé Mise en Forme du
Problème
7
Données - on dispose dune population dobjets
0bj, - chaque objet obj est défini par la
valeur quil prend pour chacun des attributs
dun ensemble A a1, , an, c, - chaque ai
est appelé attribut de description (attribut ou
variable exogène chez certains auteurs), - c
est appelé attribut de classification (attribut
ou variable endogène chez ces auteurs), -
le domaine des valeurs associées à ai ou c est
noté D(ai) ou D(c), pour l instant D(ai) ou
D(c) sont des ensembles discrets, la
restriction sera levée plus tard, - la relation
entre objets et attributs est donnée par un
table relationnelle D qui décrit la population
toute entière
8Apprentissage Supervisé Mise en Forme du
Problème
8
Données (suite) - Dans le problème
dapprentissage supervisé, lensemble D est
constitué de 3 parties Dapp fichier
dapprentissage, utilisé par lalgorithme
dapprentissage pour apprendre la procédure de
décision. Pour chaque objet de ce fichier
on connaît la classe (i.e. valeur de
lattribut de classification). Dval fichier de
validation, utilisé par lalgorithme
dapprentissage pour contrôler la qualité
de la procédure de décision apprise. Pour
chaque objet de ce fichier on connaît la
classe. Dr D - (Dapp ? Dval) tout le reste.
Cest sur cette partie que s applique
la procédure de décision (généralisation).
9Apprentissage Supervisé Mise en Forme du
Problème
9
- Principe de Fonctionnement
- - Apprentissage dune procédure de décision sur
Dapp. Cette procédure - peut être formée
- dun ensemble de règles explicitement générées
(graphes dinduction, - algorithmes génétiques)
- dun graphe dévaluation dont les arcs sont
pondérés (paramètres) - (réseaux de neurones).
- - Validation de la procédure sur Dval. Toute
procédure qui passe le test de - validation avec un taux derreur inférieur ou
égal un seuil donné ? est - est appelée ?-valide.
- - Utilisation de la procédure apprise et validée
pour décider de la classe des - éléments de Dr. Cette phase est appelée
généralisation.
10Apprentissage Supervisé Mise en Forme du
Problème
10
Biais du fichier dapprentissage Il peut arriver
que le fichier dapprentissage Dapp ne soit pas
représentatif de lensemble de la population
D ? Dapp est biaisé ? lalgorithme
dapprentissage apprend les particularités de
Dapp plutôt que les propriétés
généralisables à D tout entier. Deux cas
possibles - Si Dval est biaisé de la même façon
que Dapp la validation réussira mais la
procédure de décision ne pourra généraliser
correctement. - Si Dval n est pas biaisé de la
même façon que Dapp la validation échouera.
Dans la suite on supposera Dapp et Dval non
biaisé on supposera ces ensembles suffisamment
grands et prélevés au hasard.
11Apprentissage Supervisé Mise en Forme du
Problème
11
Mesure de validité Appelons ? la procédure de
décision construite par lalgorithme
dapprentissage. Pour chaque objet obj ? prend
pour arguments les valeurs associées aux
attributs de description, ? fournit en résultat
la valeur c de lattribut de classification. On
note N obji ? Dval ?(obji) vic. (i.e.,
N est le cardinal de lensemble des objets qui
sont correctement classés par ?) ? est dite
?-valide si N 1 ?
? Dval Le rapport N 1
est appelé taux derreur.
Dval Noter que ? peut-être ?-valide et donner
de mauvais résultats dans la phase de
généralisation. Cela se produit lorsque Dapp et
Dval sont biaisés de la même façon. La
concordance des biais empêche de percevoir le
défaut de généralisation potentiel.