Title: Classification et prdiction
1Classification et prédiction
2Classification vs. Prédiction
- Classification
- Classifier les données (construire un modèle) en
se basant sur un ensemble où lon connaît déjÃ
lassociation données-classes (training set
ensemble dapprentissage) - Prédiction
- Modéliser des valeurs connues pour prédire des
valeurs inconnues
3Classification Processus à deux étapes
- Construction du modèle
- Chaque tuple (exemple) est supposé appartenir Ã
une classe comme spécifié par le label de
lattribut Classe - Les données sont partagées en 2 sous ensembles
- Le modèle (construit sur le 1er sous ensemble)
est représenté par des règles de classification,
arbres de décisions - Utilisation du modèle
- Estimer la pertinence sur le 2ème sous ensemble
- Comparer les labels de classe de lensemble avec
ce que prévoit le modèle - Le pourcentage de tuples qui sont correctement
classifiés par le modèle donne une mesure de la
précision
4Processus de Classification (1) Construction du
modèle
Algorithmes de Classification
SI Grade professeur OU Années gt 6 ALORS
Titulaire oui
5Processus de Classification (2) Prédiction
(Jeff, Professeur, 4)
Titulaire?
OUI
6Apprentissage Supervisé vs non supervisé
- Apprentissage Supervisé (classification)
- Supervision les données dapprentissage
(observations) sont accompagnés par les labels
indiquant leurs classes - Les nouvelles données sont classifiées en se
basant sur le training set - Apprentissage non supervisé (regroupement)
- Le label de classe des éléments observés
(training set) nest pas connu - Le but est de déceler lexistence de classes ou
groupes dans les données
7Classification avec arbres de décision
- Arbre de Décision
- Les nuds internes correspondent à des tests
- Un arc correspond au résultat dun test
- Les nuds feuilles représentent des classes
- La génération se fait en 2 phases
- Construction de larbre
- Au début tous les tuples se trouvent sur la
racine - Partitioner les tuples récursivement en se basant
à chaque fois sur un attribut sélectionné - Simplification de larbre
- Identifier et supprimer les branches qui
correspondent à des exceptions - Utilisation
- Tester les attributs du tuples par rapport Ã
larbre pour trouver la branche et quil
satisfait donc sa classe
8Training set
9Output Un arbre de décision pour
achète_ordinateur
age?
lt30
overcast
gt40
30..40
étudiant?
Crédit ?
oui
non
oui
correct
excellent
non
non
oui
oui
10Algorithme dextraction darbre de décision
- Larbre est construit top-down récursivement
- Au début, tous les tuples sont sur la racine
- Les attributs sont qualitatifs (discrétisation
sil le faut) - Les tuples sont ensuite partitionnés en fonction
des attributs sélectionnés - Les attributs de test sont sélectionnés en
utilisant des heuristiques ex gain
informationnel (on y reviendra) - Conditions darrêt du partitionnement
- Tous les tuples dun noeud se trouvent dans la
même classe - Il ny a plus dattributs pour faire le
partionnement, Dans ce cas, le nud est
transformé en feuille et la classe associée est
la plus fréquente dans lensemble. - Il ny a plus de tuples
11Choix de lattribut de partionnement (1)
- Soit le training set suivant
Si cest A qui est choisi en premier
A
1
0
C2
C1
Si cest B qui est choisi en premier
B
1
0
A
1
A
1
0
0
C2
C1
C1
C2
12Choix de lattribut de partionnement (2)
- Un arbre de décision représente la suite de
questions à poser pour pouvoir classifier un
nouvel exemple. - Le but consiste à obtenir une classification en
posant le moins possible de questions - Dans lexemple précédent, on dira que lattribut
A apporte plus dinformation, respectivement à la
classification des exemples que B - Nous avons donc besoin de quantifier
linformation apportée par chaque attribut
13Notions sur la théorie de linformation(1)
- Intuitivement Plus un événement est probable,
moins il nous apporte dinformation - Exemple Vous êtes dans le désert et on vous
annonce que le lendemain, il fera beau. Cest un
événement très probable, ce message napporte
donc presque aucune information - La quantité dinformation associée à un événement
x sera considérée comme une fonction croissante
sur son improbabilité - Un événement certain apporte une quantité
dinformation nulle, ainsi f(1) doit être nulle
14Notions sur la théorie de linformation(2)
- La réalisation de 2 événements indépendants
apporte une quantité dinformation égale à la
somme de leurs informations respectives, i.e - Cest la fonction log en base 2 qui a été
choisie. Ainsi, - La fonction h satisfait les 2 conditions
mentionnées
15Notions sur la théorie de linformation(3)
- Supposons quil y a deux classes, P et N
- Soit S un ensemble qui contient p éléments de P
et n éléments de N - La probabilité quun élément soit dans P est
p/(pn) - La quantité dinformation nécessaire pour décider
si un élément quelconque de S se trouve dans P
ou N est définie par
16Gain dinformation et arbre de décision
- Supposons quen utilisant lattribut A, S est
partitionné en S1, S2 , , Sv (ça veut dire
que A prend v valeurs) - Si Si contient pi tuples de P et ni tuples de N,
lentropie, ou la quantité dinformation
nécessaire pour classifier les objets de tous les
sous arbres Si est - Lentropie mesure la  quantité de  désordreÂ
qui reste après le choix de A - Linformation de codage gagnée en utilisant A
sera
17Application à lexemple (1)
- Il y a 2 classes C1 (P) et C2 (N)
- En choisissant A, S est partitionné en S1 et S2
- p12, n10, p20 et n22
- E(A)1/4 (2 I(2,0)2 I(0,2))
- I(2,0)-log(1)-0log(0)0
- I(0,2)0
- E(A)0
- E(A)I(2,2)-E(A)
- I(2,2)1
- Gain(A)1
18Application à lexemple (2)
19 Training set
20Gain dinformation Exemple
- Classe P achète_ordinateur oui
- Classe N achète_ordinateur non
- I(p, n) I(9, 5) 0.940
- Lentropie de lattribut age
Gain(age)I(p,n)-E(age)0,246
Gain(salaire)0,029 Gain(étudiant)0,151 Gain(Créd
it)0,048
21Extraction de règles de classification
- De la forme SI-ALORS
- Chaque chemin partant de la racine et atteignant
une feuille donne lieu à une règle - Chaque paire attribut-value le long dun chemin
forme une conjonction - Les feuilles constituent la classe
- Exemple
- SI age lt30 ET étudiant non ALORS
achète_ordinateur non - SI age lt30 ET étudiant oui ALORS
achète_ordinateur oui
22Généraliser larbre induit
- 2 Approches
- Prepruning ne pas découper un nud si le partage
fait basculer la mesure de pertinence passe en
dessous dun certain seuil - Difficile de choisir un seuil approprié
- Postpruning supprimer des banches dun arbre
déjà construit. Obtenir un ensemble darbres
réduits - Utiliser un ensemble de données différent du
training set pour choisir le meilleur arbre réduit
23Classification Bayésienne
- Prédiction en termes de probabilité Prédit
plusieurs hypothèses en les pondérant par leurs
probabilités - Etant donné un objet O, la méthode consisite Ã
calculer la probabilité dappartenance de O Ã
chaque classe, puis choisir celle qui maximise
cette valeur - Standard Même sil savère que les méthodes
bayésiennes se révèlent intractables, elles
peuvent être considérées comme étalon pour
mesurer la correction dautres méthodes
24Théoreme de Bayes
- Soit le training set D, la probabilité
aposteriori de lhypothèse h, P(hD) suit le
théorème de Bayes - MAP (maximum posteriori) hypothesis
- Difficulté pratique on a besoin de connaître
initialement plusieurs probabilités et un temps
de calcul non négligeable
25Classifieur Naïf de Bayes (I)
- On suppose que les attributs sont indépendants
- Réduit énormément les temps de calcul, compter
seulement la distribution de classes.
26Classifieur Naïf de Bayes (I)
- Etant donné un training set, on peut calculer les
probabilités. Pjouer au tennis (Positif) et N
ne pas jouer au tennis (Négatif)
27Classification Bayésienne
- Le problème de classification peut être formalisé
en utilisant les probabilités a-posteriori - P(CX) prob. que Xltx1,,xkgt soit de la
classe C. - Ex. P(classeN tempssoleil,ventvrai,)
- Affecter à X la classe C tel que P(CX) est
maximal
28Estimer les probabilités a-posteriori
- Théoreme de Bayes
- P(CX) P(XC)P(C) / P(X)
- P(X) est la même pour toutes les classes
- P(C) fréquence relative des éléments de C
- C telle que P(CX) est maximum C telle que
P(XC)P(C) est maximum - Problème calculer P(XC) est infaisable !
29Classification Bayésiènne Naïve
- Hypothèse indépendance des attributs
- P(x1,,xkC) P(x1C)P(xkC)
- Si attribut Ai est qualitatifP(xiC) est
estimée par la fréquence relative des éléments
ayant la valeur xi pour Ai et qui sont dans C - Si attribut Ai est continuP(xiC) est estimé en
utilisant la loi de Gauss (on suppose Ai suit une
loi normale) - Facile à calculer dans les deux cas
30Example estimer P(xiC)
31Exemple classifier X
- Soit X ltpluie, chaud, élevée, fauxgt
- P(Xp)P(p) P(pluiep)P(chaudp)P(élevéep)P
(fauxp)P(p) 3/92/93/96/99/14 0.010582 - P(Xn)P(n) P(pluien)P(chaudn)P(élevéen)P
(fauxn)P(n) 2/52/54/52/55/14 0.018286 - X est classifié en N (ne pas jouer au tennis)
32Lhypothèse d indépendance
- Rend le calcul possible
- Problème en pratique, les attributs (variables)
sont souvent corrélés - Solution
- Réseaux Bayesien, utiliser le raisonnement
Bayésien en tenant compte des relations causales
qui existent entre attributs
33Réseaux Bayésiens (I)
Historique familliale
Fumeur
(HF, F)
(HF, S)
(HF, S)
(HF, S)
LC
0.7
0.8
0.5
0.1
LungCancer
Emphysema
LC
0.3
0.2
0.5
0.9
La table de probabilité conditionnelle de la
variable LC
PositiveXRay
Dyspnea
Réseau Bayésien
34Réseaux Bayésiens (II)
- Un tel réseau autorise un sous ensemble
dattributs indépendants (ex Historique familial
et Fumeur) - Chaque nud dépend de ces antécédents.
- Le modèle graphique représente les relations
causales - La table des probabilités conditionnelles dune
variable tient compte de toutes les combinaisons
possibles de ses antécédents - Soit Xltx1,,xngt un tuple. Prob(X) est donné par
- ? Prob(xi Parents(Xi))
35A
B
C
36Suite
- Nous avons donc 3 attributs (A, B et C).
- Supposons que lun de ces attributs (ex C)
représente une classe. - Le problème de classification consiste donc Ã
attribuer une classe à Xlta1, b1gt. - Il sagit de calculer les probabilités que X
soit dans ci sachant que Xlta1, b1gt, i.e
Prob(cilta1,b1gt), puis sélectionner ci qui donne
le maximum - Il suffit donc de reprendre les infos contenues
dans les tables de probabilité conditionnelles.
37Scénarios possibles
- On donne la structure
- On donne la structure du réseau mais certaines
variables manquent dans le training set Dans ce
cas il sagit de remplire la tables des
probabilités en sachant que certaines valeurs
sont manquantes - On ne donne pas la structure du réseau
38La méthode des k plus proches voisins (k-Nearest
Neighbor)
- Variables numériques un objetpoint dans espace
à n dimensions. - Utilisation de la distance pour définir le plus
proche voisin. - Etant donné O, on cherche ses k plus proches
voisins. Ensuite, on lui affecte la classe la
plus fréquente dans cet ensemble (ou la moyenne,
sil sagit dune variable continue)
39Variation de lalgorithme
- Pondérer les voisins Plus un voisin est proche,
plus son poids est grand - On peut considérer la formule de poids suivante
- Calculer la moyenne pondérée
40Prédiction?
- La prédiction est similaire à la classification
- Construire une modèle
- Utiliser le modèle pour prédire des valeurs
- La regression est la méthode de prédiction la
plus utilisée - Regression linéaire (multiple)
- Regression non linéaire
- La prédiction est différente de la classification
- Classification prédire des valeurs catégorielles
- Prédiction prédire des valeurs continues
41Régression
- Régression Linéaire Y ? ? X
- 2 paramètres , ? et ? spécifient une droite. Ils
sont estimés en utilisant les données
disponibles. - Utilisation de la méthode des moindres carrés
avec comme données, les couples (Y1, X1) (Y2, X2)
- Régression multiple Y b0 b1 X1 b2 X2.
- Estimer b0, b1, b2
- Plusieurs fonctions non linéaires peuvent être
transformées de la sorte.