Classification et prdiction - PowerPoint PPT Presentation

1 / 39

About This Presentation

Title:

Classification et prdiction

Description:

Classifier les donn es (construire un mod le) en se basant sur un ensemble o ... Par ailleurs, Gain(salaire)=0,029. Gain( tudiant)=0,151. Gain(Cr dit)=0, ... – PowerPoint PPT presentation

Number of Views:38

Avg rating:3.0/5.0

Slides: 40

Provided by: jiaw227

Category:

more less

Transcript and Presenter's Notes

Title: Classification et prdiction

1
Classification et prédiction
2
Classification vs. Prédiction

Classification
Classifier les données (construire un modèle) en
se basant sur un ensemble où lon connaît déjà
lassociation données-classes (training set
ensemble dapprentissage)
Prédiction
Modéliser des valeurs connues pour prédire des
valeurs inconnues

3
Classification Processus à deux étapes

Construction du modèle
Chaque tuple (exemple) est supposé appartenir à
une classe comme spécifié par le label de
lattribut Classe
Les données sont partagées en 2 sous ensembles
Le modèle (construit sur le 1er sous ensemble)
est représenté par des règles de classification,
arbres de décisions
Utilisation du modèle
Estimer la pertinence sur le 2ème sous ensemble
Comparer les labels de classe de lensemble avec
ce que prévoit le modèle
Le pourcentage de tuples qui sont correctement
classifiés par le modèle donne une mesure de la
précision

4
Processus de Classification (1) Construction du
modèle
Algorithmes de Classification
SI Grade professeur OU Années gt 6 ALORS
Titulaire oui
5
Processus de Classification (2) Prédiction
(Jeff, Professeur, 4)
Titulaire?
OUI
6
Apprentissage Supervisé vs non supervisé

Apprentissage Supervisé (classification)
Supervision les données dapprentissage
(observations) sont accompagnés par les labels
indiquant leurs classes
Les nouvelles données sont classifiées en se
basant sur le training set
Apprentissage non supervisé (regroupement)
Le label de classe des éléments observés
(training set) nest pas connu
Le but est de déceler lexistence de classes ou
groupes dans les données

7
Classification avec arbres de décision

Arbre de Décision
Les nuds internes correspondent à des tests
Un arc correspond au résultat dun test
Les nuds feuilles représentent des classes
La génération se fait en 2 phases
Construction de larbre
Au début tous les tuples se trouvent sur la
racine
Partitioner les tuples récursivement en se basant
à chaque fois sur un attribut sélectionné
Simplification de larbre
Identifier et supprimer les branches qui
correspondent à des exceptions
Utilisation
Tester les attributs du tuples par rapport à
larbre pour trouver la branche et quil
satisfait donc sa classe

8
Training set
9
Output Un arbre de décision pour
achète_ordinateur
age?
lt30
overcast
gt40
30..40
étudiant?
Crédit ?
oui
non
oui
correct
excellent
non
non
oui
oui
10
Algorithme dextraction darbre de décision

Larbre est construit top-down récursivement
Au début, tous les tuples sont sur la racine
Les attributs sont qualitatifs (discrétisation
sil le faut)
Les tuples sont ensuite partitionnés en fonction
des attributs sélectionnés
Les attributs de test sont sélectionnés en
utilisant des heuristiques ex gain
informationnel (on y reviendra)
Conditions darrêt du partitionnement
Tous les tuples dun noeud se trouvent dans la
même classe
Il ny a plus dattributs pour faire le
partionnement, Dans ce cas, le nud est
transformé en feuille et la classe associée est
la plus fréquente dans lensemble.
Il ny a plus de tuples

11
Choix de lattribut de partionnement (1)

Soit le training set suivant

Si cest A qui est choisi en premier
A
1
0
C2
C1
Si cest B qui est choisi en premier
B
1
0
A
1
A
1
0
0
C2
C1
C1
C2
12
Choix de lattribut de partionnement (2)

Un arbre de décision représente la suite de
questions à poser pour pouvoir classifier un
nouvel exemple.
Le but consiste à obtenir une classification en
posant le moins possible de questions
Dans lexemple précédent, on dira que lattribut
A apporte plus dinformation, respectivement à la
classification des exemples que B
Nous avons donc besoin de quantifier
linformation apportée par chaque attribut

13
Notions sur la théorie de linformation(1)

Intuitivement Plus un événement est probable,
moins il nous apporte dinformation
Exemple Vous êtes dans le désert et on vous
annonce que le lendemain, il fera beau. Cest un
événement très probable, ce message napporte
donc presque aucune information
La quantité dinformation associée à un événement
x sera considérée comme une fonction croissante
sur son improbabilité
Un événement certain apporte une quantité
dinformation nulle, ainsi f(1) doit être nulle

14
Notions sur la théorie de linformation(2)

La réalisation de 2 événements indépendants
apporte une quantité dinformation égale à la
somme de leurs informations respectives, i.e
Cest la fonction log en base 2 qui a été
choisie. Ainsi,
La fonction h satisfait les 2 conditions
mentionnées

15
Notions sur la théorie de linformation(3)

Supposons quil y a deux classes, P et N
Soit S un ensemble qui contient p éléments de P
et n éléments de N
La probabilité quun élément soit dans P est
p/(pn)
La quantité dinformation nécessaire pour décider
si un élément quelconque de S se trouve dans P
ou N est définie par

16
Gain dinformation et arbre de décision

Supposons quen utilisant lattribut A, S est
partitionné en S1, S2 , , Sv (ça veut dire
que A prend v valeurs)
Si Si contient pi tuples de P et ni tuples de N,
lentropie, ou la quantité dinformation
nécessaire pour classifier les objets de tous les
sous arbres Si est
Lentropie mesure la quantité de désordre
qui reste après le choix de A
Linformation de codage gagnée en utilisant A
sera

17
Application à lexemple (1)

Il y a 2 classes C1 (P) et C2 (N)
En choisissant A, S est partitionné en S1 et S2
p12, n10, p20 et n22
E(A)1/4 (2 I(2,0)2 I(0,2))
I(2,0)-log(1)-0log(0)0
I(0,2)0
E(A)0
E(A)I(2,2)-E(A)
I(2,2)1
Gain(A)1

18
Application à lexemple (2)

Refaire le calcul pour B

19
Training set
20
Gain dinformation Exemple

Ainsi,
Par ailleurs,

Classe P achète_ordinateur oui
Classe N achète_ordinateur non
I(p, n) I(9, 5) 0.940
Lentropie de lattribut age

Gain(age)I(p,n)-E(age)0,246
Gain(salaire)0,029 Gain(étudiant)0,151 Gain(Créd
it)0,048
21
Extraction de règles de classification

De la forme SI-ALORS
Chaque chemin partant de la racine et atteignant
une feuille donne lieu à une règle
Chaque paire attribut-value le long dun chemin
forme une conjonction
Les feuilles constituent la classe
Exemple
SI age lt30 ET étudiant non ALORS
achète_ordinateur non
SI age lt30 ET étudiant oui ALORS
achète_ordinateur oui

22
Généraliser larbre induit

2 Approches
Prepruning ne pas découper un nud si le partage
fait basculer la mesure de pertinence passe en
dessous dun certain seuil
Difficile de choisir un seuil approprié
Postpruning supprimer des banches dun arbre
déjà construit. Obtenir un ensemble darbres
réduits
Utiliser un ensemble de données différent du
training set pour choisir le meilleur arbre réduit

23
Classification Bayésienne

Prédiction en termes de probabilité Prédit
plusieurs hypothèses en les pondérant par leurs
probabilités
Etant donné un objet O, la méthode consisite à
calculer la probabilité dappartenance de O à
chaque classe, puis choisir celle qui maximise
cette valeur
Standard Même sil savère que les méthodes
bayésiennes se révèlent intractables, elles
peuvent être considérées comme étalon pour
mesurer la correction dautres méthodes

24
Théoreme de Bayes

Soit le training set D, la probabilité
aposteriori de lhypothèse h, P(hD) suit le
théorème de Bayes
MAP (maximum posteriori) hypothesis
Difficulté pratique on a besoin de connaître
initialement plusieurs probabilités et un temps
de calcul non négligeable

25
Classifieur Naïf de Bayes (I)

On suppose que les attributs sont indépendants
Réduit énormément les temps de calcul, compter
seulement la distribution de classes.

26
Classifieur Naïf de Bayes (I)

Etant donné un training set, on peut calculer les
probabilités. Pjouer au tennis (Positif) et N
ne pas jouer au tennis (Négatif)

27
Classification Bayésienne

Le problème de classification peut être formalisé
en utilisant les probabilités a-posteriori
P(CX) prob. que Xltx1,,xkgt soit de la
classe C.
Ex. P(classeN tempssoleil,ventvrai,)
Affecter à X la classe C tel que P(CX) est
maximal

28
Estimer les probabilités a-posteriori

Théoreme de Bayes
P(CX) P(XC)P(C) / P(X)
P(X) est la même pour toutes les classes
P(C) fréquence relative des éléments de C
C telle que P(CX) est maximum C telle que
P(XC)P(C) est maximum
Problème calculer P(XC) est infaisable !

29
Classification Bayésiènne Naïve

Hypothèse indépendance des attributs
P(x1,,xkC) P(x1C)P(xkC)
Si attribut Ai est qualitatifP(xiC) est
estimée par la fréquence relative des éléments
ayant la valeur xi pour Ai et qui sont dans C
Si attribut Ai est continuP(xiC) est estimé en
utilisant la loi de Gauss (on suppose Ai suit une
loi normale)
Facile à calculer dans les deux cas

30
Example estimer P(xiC)
31
Exemple classifier X

Soit X ltpluie, chaud, élevée, fauxgt
P(Xp)P(p) P(pluiep)P(chaudp)P(élevéep)P
(fauxp)P(p) 3/92/93/96/99/14 0.010582
P(Xn)P(n) P(pluien)P(chaudn)P(élevéen)P
(fauxn)P(n) 2/52/54/52/55/14 0.018286
X est classifié en N (ne pas jouer au tennis)

32
Lhypothèse d indépendance

Rend le calcul possible
Problème en pratique, les attributs (variables)
sont souvent corrélés
Solution
Réseaux Bayesien, utiliser le raisonnement
Bayésien en tenant compte des relations causales
qui existent entre attributs

33
Réseaux Bayésiens (I)
Historique familliale
Fumeur
(HF, F)
(HF, S)
(HF, S)
(HF, S)
LC
0.7
0.8
0.5
0.1
LungCancer
Emphysema
LC
0.3
0.2
0.5
0.9
La table de probabilité conditionnelle de la
variable LC
PositiveXRay
Dyspnea
Réseau Bayésien
34
Réseaux Bayésiens (II)

Un tel réseau autorise un sous ensemble
dattributs indépendants (ex Historique familial
et Fumeur)
Chaque nud dépend de ces antécédents.
Le modèle graphique représente les relations
causales
La table des probabilités conditionnelles dune
variable tient compte de toutes les combinaisons
possibles de ses antécédents
Soit Xltx1,,xngt un tuple. Prob(X) est donné par
? Prob(xi Parents(Xi))

35
A
B
C

36
Suite

Nous avons donc 3 attributs (A, B et C).
Supposons que lun de ces attributs (ex C)
représente une classe.
Le problème de classification consiste donc à
attribuer une classe à Xlta1, b1gt.
Il sagit de calculer les probabilités que X
soit dans ci sachant que Xlta1, b1gt, i.e
Prob(cilta1,b1gt), puis sélectionner ci qui donne
le maximum
Il suffit donc de reprendre les infos contenues
dans les tables de probabilité conditionnelles.

37
Scénarios possibles

On donne la structure
On donne la structure du réseau mais certaines
variables manquent dans le training set Dans ce
cas il sagit de remplire la tables des
probabilités en sachant que certaines valeurs
sont manquantes
On ne donne pas la structure du réseau

38
La méthode des k plus proches voisins (k-Nearest
Neighbor)

Variables numériques un objetpoint dans espace
à n dimensions.
Utilisation de la distance pour définir le plus
proche voisin.
Etant donné O, on cherche ses k plus proches
voisins. Ensuite, on lui affecte la classe la
plus fréquente dans cet ensemble (ou la moyenne,
sil sagit dune variable continue)

39
Variation de lalgorithme

Pondérer les voisins Plus un voisin est proche,
plus son poids est grand
On peut considérer la formule de poids suivante
Calculer la moyenne pondérée

40
Prédiction?

La prédiction est similaire à la classification
Construire une modèle
Utiliser le modèle pour prédire des valeurs
La regression est la méthode de prédiction la
plus utilisée
Regression linéaire (multiple)
Regression non linéaire
La prédiction est différente de la classification
Classification prédire des valeurs catégorielles
Prédiction prédire des valeurs continues

41
Régression

Régression Linéaire Y ? ? X
2 paramètres , ? et ? spécifient une droite. Ils
sont estimés en utilisant les données
disponibles.
Utilisation de la méthode des moindres carrés
avec comme données, les couples (Y1, X1) (Y2, X2)
Régression multiple Y b0 b1 X1 b2 X2.
Estimer b0, b1, b2
Plusieurs fonctions non linéaires peuvent être
transformées de la sorte.