Classification et prdiction - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Classification et prdiction

Description:

Classifier les donn es (construire un mod le) en se basant sur un ensemble o ... Par ailleurs, Gain(salaire)=0,029. Gain( tudiant)=0,151. Gain(Cr dit)=0, ... – PowerPoint PPT presentation

Number of Views:38
Avg rating:3.0/5.0
Slides: 40
Provided by: jiaw227
Category:

less

Transcript and Presenter's Notes

Title: Classification et prdiction


1
Classification et prédiction
2
Classification vs. Prédiction
  • Classification
  • Classifier les données (construire un modèle) en
    se basant sur un ensemble où lon connaît déjà
    lassociation données-classes (training set
    ensemble dapprentissage)
  • Prédiction
  • Modéliser des valeurs connues pour prédire des
    valeurs inconnues

3
Classification Processus à deux étapes
  • Construction du modèle
  • Chaque tuple (exemple) est supposé appartenir à
    une classe comme spécifié par le label de
    lattribut Classe
  • Les données sont partagées en 2 sous ensembles
  • Le modèle (construit sur le 1er sous ensemble)
    est représenté par des règles de classification,
    arbres de décisions
  • Utilisation du modèle
  • Estimer la pertinence sur le 2ème sous ensemble
  • Comparer les labels de classe de lensemble avec
    ce que prévoit le modèle
  • Le pourcentage de tuples qui sont correctement
    classifiés par le modèle donne une mesure de la
    précision

4
Processus de Classification (1) Construction du
modèle
Algorithmes de Classification
SI Grade professeur OU Années gt 6 ALORS
Titulaire oui
5
Processus de Classification (2) Prédiction
(Jeff, Professeur, 4)
Titulaire?
OUI
6
Apprentissage Supervisé vs non supervisé
  • Apprentissage Supervisé (classification)
  • Supervision les données dapprentissage
    (observations) sont accompagnés par les labels
    indiquant leurs classes
  • Les nouvelles données sont classifiées en se
    basant sur le training set
  • Apprentissage non supervisé (regroupement)
  • Le label de classe des éléments observés
    (training set) nest pas connu
  • Le but est de déceler lexistence de classes ou
    groupes dans les données

7
Classification avec arbres de décision
  • Arbre de Décision
  • Les nuds internes correspondent à des tests
  • Un arc correspond au résultat dun test
  • Les nuds feuilles représentent des classes
  • La génération se fait en 2 phases
  • Construction de larbre
  • Au début tous les tuples se trouvent sur la
    racine
  • Partitioner les tuples récursivement en se basant
    à chaque fois sur un attribut sélectionné
  • Simplification de larbre
  • Identifier et supprimer les branches qui
    correspondent à des exceptions
  • Utilisation
  • Tester les attributs du tuples par rapport à
    larbre pour trouver la branche et quil
    satisfait donc sa classe

8
Training set
9
Output Un arbre de décision pour
achète_ordinateur
age?
lt30
overcast
gt40
30..40
étudiant?
Crédit ?
oui
non
oui
correct
excellent
non
non
oui
oui
10
Algorithme dextraction darbre de décision
  • Larbre est construit top-down récursivement
  • Au début, tous les tuples sont sur la racine
  • Les attributs sont qualitatifs (discrétisation
    sil le faut)
  • Les tuples sont ensuite partitionnés en fonction
    des attributs sélectionnés
  • Les attributs de test sont sélectionnés en
    utilisant des heuristiques ex gain
    informationnel (on y reviendra)
  • Conditions darrêt du partitionnement
  • Tous les tuples dun noeud se trouvent dans la
    même classe
  • Il ny a plus dattributs pour faire le
    partionnement, Dans ce cas, le nud est
    transformé en feuille et la classe associée est
    la plus fréquente dans lensemble.
  • Il ny a plus de tuples

11
Choix de lattribut de partionnement (1)
  • Soit le training set suivant

Si cest A qui est choisi en premier
A
1
0
C2
C1
Si cest B qui est choisi en premier
B
1
0
A
1
A
1
0
0
C2
C1
C1
C2
12
Choix de lattribut de partionnement (2)
  • Un arbre de décision représente la suite de
    questions à poser pour pouvoir classifier un
    nouvel exemple.
  • Le but consiste à obtenir une classification en
    posant le moins possible de questions
  • Dans lexemple précédent, on dira que lattribut
    A apporte plus dinformation, respectivement à la
    classification des exemples que B
  • Nous avons donc besoin de quantifier
    linformation apportée par chaque attribut

13
Notions sur la théorie de linformation(1)
  • Intuitivement Plus un événement est probable,
    moins il nous apporte dinformation
  • Exemple Vous êtes dans le désert et on vous
    annonce que le lendemain, il fera beau. Cest un
    événement très probable, ce message napporte
    donc presque aucune information
  • La quantité dinformation associée à un événement
    x sera considérée comme une fonction croissante
    sur son improbabilité
  • Un événement certain apporte une quantité
    dinformation nulle, ainsi f(1) doit être nulle

14
Notions sur la théorie de linformation(2)
  • La réalisation de 2 événements indépendants
    apporte une quantité dinformation égale à la
    somme de leurs informations respectives, i.e
  • Cest la fonction log en base 2 qui a été
    choisie. Ainsi,
  • La fonction h satisfait les 2 conditions
    mentionnées

15
Notions sur la théorie de linformation(3)
  • Supposons quil y a deux classes, P et N
  • Soit S un ensemble qui contient p éléments de P
    et n éléments de N
  • La probabilité quun élément soit dans P est
    p/(pn)
  • La quantité dinformation nécessaire pour décider
    si un élément quelconque de S se trouve dans P
    ou N est définie par

16
Gain dinformation et arbre de décision
  • Supposons quen utilisant lattribut A, S est
    partitionné en S1, S2 , , Sv (ça veut dire
    que A prend v valeurs)
  • Si Si contient pi tuples de P et ni tuples de N,
    lentropie, ou la quantité dinformation
    nécessaire pour classifier les objets de tous les
    sous arbres Si est
  • Lentropie mesure la  quantité de  désordre 
    qui reste après le choix de A
  • Linformation de codage gagnée en utilisant A
    sera

17
Application à lexemple (1)
  • Il y a 2 classes C1 (P) et C2 (N)
  • En choisissant A, S est partitionné en S1 et S2
  • p12, n10, p20 et n22
  • E(A)1/4 (2 I(2,0)2 I(0,2))
  • I(2,0)-log(1)-0log(0)0
  • I(0,2)0
  • E(A)0
  • E(A)I(2,2)-E(A)
  • I(2,2)1
  • Gain(A)1

18
Application à lexemple (2)
  • Refaire le calcul pour B

19
Training set
20
Gain dinformation Exemple
  • Ainsi,
  • Par ailleurs,
  • Classe P achète_ordinateur oui
  • Classe N achète_ordinateur non
  • I(p, n) I(9, 5) 0.940
  • Lentropie de lattribut age

Gain(age)I(p,n)-E(age)0,246
Gain(salaire)0,029 Gain(étudiant)0,151 Gain(Créd
it)0,048
21
Extraction de règles de classification
  • De la forme SI-ALORS
  • Chaque chemin partant de la racine et atteignant
    une feuille donne lieu à une règle
  • Chaque paire attribut-value le long dun chemin
    forme une conjonction
  • Les feuilles constituent la classe
  • Exemple
  • SI age lt30 ET étudiant non ALORS
    achète_ordinateur non
  • SI age lt30 ET étudiant oui ALORS
    achète_ordinateur oui

22
Généraliser larbre induit
  • 2 Approches
  • Prepruning ne pas découper un nud si le partage
    fait basculer la mesure de pertinence passe en
    dessous dun certain seuil
  • Difficile de choisir un seuil approprié
  • Postpruning supprimer des banches dun arbre
    déjà construit. Obtenir un ensemble darbres
    réduits
  • Utiliser un ensemble de données différent du
    training set pour choisir le meilleur arbre réduit

23
Classification Bayésienne
  • Prédiction en termes de probabilité Prédit
    plusieurs hypothèses en les pondérant par leurs
    probabilités
  • Etant donné un objet O, la méthode consisite à
    calculer la probabilité dappartenance de O à
    chaque classe, puis choisir celle qui maximise
    cette valeur
  • Standard Même sil savère que les méthodes
    bayésiennes se révèlent intractables, elles
    peuvent être considérées comme étalon pour
    mesurer la correction dautres méthodes

24
Théoreme de Bayes
  • Soit le training set D, la probabilité
    aposteriori de lhypothèse h, P(hD) suit le
    théorème de Bayes
  • MAP (maximum posteriori) hypothesis
  • Difficulté pratique on a besoin de connaître
    initialement plusieurs probabilités et un temps
    de calcul non négligeable

25
Classifieur Naïf de Bayes (I)
  • On suppose que les attributs sont indépendants
  • Réduit énormément les temps de calcul, compter
    seulement la distribution de classes.

26
Classifieur Naïf de Bayes (I)
  • Etant donné un training set, on peut calculer les
    probabilités. Pjouer au tennis (Positif) et N
    ne pas jouer au tennis (Négatif)

27
Classification Bayésienne
  • Le problème de classification peut être formalisé
    en utilisant les probabilités a-posteriori
  • P(CX) prob. que Xltx1,,xkgt soit de la
    classe C.
  • Ex. P(classeN tempssoleil,ventvrai,)
  • Affecter à X la classe C tel que P(CX) est
    maximal

28
Estimer les probabilités a-posteriori
  • Théoreme de Bayes
  • P(CX) P(XC)P(C) / P(X)
  • P(X) est la même pour toutes les classes
  • P(C) fréquence relative des éléments de C
  • C telle que P(CX) est maximum C telle que
    P(XC)P(C) est maximum
  • Problème calculer P(XC) est infaisable !

29
Classification Bayésiènne Naïve
  • Hypothèse indépendance des attributs
  • P(x1,,xkC) P(x1C)P(xkC)
  • Si attribut Ai est qualitatifP(xiC) est
    estimée par la fréquence relative des éléments
    ayant la valeur xi pour Ai et qui sont dans C
  • Si attribut Ai est continuP(xiC) est estimé en
    utilisant la loi de Gauss (on suppose Ai suit une
    loi normale)
  • Facile à calculer dans les deux cas

30
Example estimer P(xiC)
31
Exemple classifier X
  • Soit X ltpluie, chaud, élevée, fauxgt
  • P(Xp)P(p) P(pluiep)P(chaudp)P(élevéep)P
    (fauxp)P(p) 3/92/93/96/99/14 0.010582
  • P(Xn)P(n) P(pluien)P(chaudn)P(élevéen)P
    (fauxn)P(n) 2/52/54/52/55/14 0.018286
  • X est classifié en N (ne pas jouer au tennis)

32
Lhypothèse d indépendance
  • Rend le calcul possible
  • Problème en pratique, les attributs (variables)
    sont souvent corrélés
  • Solution
  • Réseaux Bayesien, utiliser le raisonnement
    Bayésien en tenant compte des relations causales
    qui existent entre attributs

33
Réseaux Bayésiens (I)
Historique familliale
Fumeur
(HF, F)
(HF, S)
(HF, S)
(HF, S)
LC
0.7
0.8
0.5
0.1
LungCancer
Emphysema
LC
0.3
0.2
0.5
0.9
La table de probabilité conditionnelle de la
variable LC
PositiveXRay
Dyspnea
Réseau Bayésien
34
Réseaux Bayésiens (II)
  • Un tel réseau autorise un sous ensemble
    dattributs indépendants (ex Historique familial
    et Fumeur)
  • Chaque nud dépend de ces antécédents.
  • Le modèle graphique représente les relations
    causales
  • La table des probabilités conditionnelles dune
    variable tient compte de toutes les combinaisons
    possibles de ses antécédents
  • Soit Xltx1,,xngt un tuple. Prob(X) est donné par
  • ? Prob(xi Parents(Xi))

35
A
B
C

36
Suite
  • Nous avons donc 3 attributs (A, B et C).
  • Supposons que lun de ces attributs (ex C)
    représente une classe.
  • Le problème de classification consiste donc à
    attribuer une classe à Xlta1, b1gt.
  • Il sagit de calculer les probabilités que X
    soit dans ci sachant que Xlta1, b1gt, i.e
    Prob(cilta1,b1gt), puis sélectionner ci qui donne
    le maximum
  • Il suffit donc de reprendre les infos contenues
    dans les tables de probabilité conditionnelles.

37
Scénarios possibles
  • On donne la structure
  • On donne la structure du réseau mais certaines
    variables manquent dans le training set Dans ce
    cas il sagit de remplire la tables des
    probabilités en sachant que certaines valeurs
    sont manquantes
  • On ne donne pas la structure du réseau

38
La méthode des k plus proches voisins (k-Nearest
Neighbor)
  • Variables numériques un objetpoint dans espace
    à n dimensions.
  • Utilisation de la distance pour définir le plus
    proche voisin.
  • Etant donné O, on cherche ses k plus proches
    voisins. Ensuite, on lui affecte la classe la
    plus fréquente dans cet ensemble (ou la moyenne,
    sil sagit dune variable continue)

39
Variation de lalgorithme
  • Pondérer les voisins Plus un voisin est proche,
    plus son poids est grand
  • On peut considérer la formule de poids suivante
  • Calculer la moyenne pondérée

40
Prédiction?
  • La prédiction est similaire à la classification
  • Construire une modèle
  • Utiliser le modèle pour prédire des valeurs
  • La regression est la méthode de prédiction la
    plus utilisée
  • Regression linéaire (multiple)
  • Regression non linéaire
  • La prédiction est différente de la classification
  • Classification prédire des valeurs catégorielles
  • Prédiction prédire des valeurs continues

41
Régression
  • Régression Linéaire Y ? ? X
  • 2 paramètres , ? et ? spécifient une droite. Ils
    sont estimés en utilisant les données
    disponibles.
  • Utilisation de la méthode des moindres carrés
    avec comme données, les couples (Y1, X1) (Y2, X2)
  • Régression multiple Y b0 b1 X1 b2 X2.
  • Estimer b0, b1, b2
  • Plusieurs fonctions non linéaires peuvent être
    transformées de la sorte.
Write a Comment
User Comments (0)
About PowerShow.com