Analyse discriminante - PowerPoint PPT Presentation

1 / 51
About This Presentation
Title:

Analyse discriminante

Description:

Title: Analyse discriminante Author: groupe hec Last modified by: Groupe HEC Created Date: 9/25/2002 2:22:50 PM Document presentation format: Affichage l' cran – PowerPoint PPT presentation

Number of Views:711
Avg rating:3.0/5.0
Slides: 52
Provided by: group16
Category:

less

Transcript and Presenter's Notes

Title: Analyse discriminante


1
Analyse discriminante
  • Michel Tenenhaus

2
Les objectifs de lanalyse discriminante
  • Étude dun tableau Individus?Variables
    Les individus sont décrits par p variables
    X1,, Xp.
  • Les individus sont répartis en k classes selon
    les modalités dune variable qualitative Y.
  • Rechercher des variables discriminantes Zh,
    combinaisons linéaires des Xj, non corrélées
    entre elles, et séparant au mieux les k classes
    (analyse factorielle discriminante).
  • Affecter une nouvelle observation à une des
    classes en fonction de ses valeurs de X
    observées (analyse discriminante bayesienne).

3
Exemple Qualité des vins de Bordeaux
  • Variables observées sur 34 années (1924 - 1957)
  • TEMPERATURE Somme des températures
    moyennes journalières
  • SOLEIL Durée dinsolation
  • CHALEUR Nombre de jours de grande chaleur
  • PLUIE Hauteur des pluies
  • QUALITE DU VIN Bon (1), Moyen (2), Médiocre
    (3)

4
Les données

5
Analyse univariée
Température

6
Analyse univariée
Soleil

7
Analyse univariée
Chaleur

8
Analyse univariée
Pluie

9
Analyse factorielle discriminanteRecherche de la
première variable discriminante
  • On recherche une première variable discriminante
    centrée
  • séparant au mieux les k classes.
  • On recherche des a1j conduisant à une variable Z1
    ayant un F ou, de manière équivalente, un ?2
    maximum dans lanalyse de la variance de Z1 sur
    le facteur Y définissant les classes.
  • On choisit comme normalisation une variance
    intra-classes
  • de Z1 égale à 1.

10
Calcul des variables discriminantessur les
données dorigine
Z1 .009Température .007Soleil -
.027Chaleur - .006Pluie - 32.876
11
Normalisation
Chaque X est centrée et normalisée par
lécart-type commun aux classes (racine-carrée du
carré moyen intra-classes)
12
Calcul des variables discriminantes sur les
données normalisées

Z1 .750X1 .547X2 - .198X3 - .445X4
13
Analyse de la variance de Z1 sur la qualité
14
Analyse factorielle discriminanteRecherche de la
deuxième variable discriminante
  • On recherche une deuxième variable discriminante
    centrée et non corrélée à Z1
  • séparant au mieux les k classes.
  • On recherche des a2j conduisant à une variable Z2
    ayant un F ou, de manière équivalente, un ?2
    maximum dans lanalyse de la variance de Z2 sur
    le facteur Y définissant les classes.
  • On choisit comme normalisation une variance
    intra-classes
  • de Z2 égale à 1.

15
Analyse de la variance de Z2 sur la qualité
16
Les deux variablesdiscriminantes
17
Le premier plan discriminant
18
Carte des qualités
Territorial Map Canonical
Discriminant Function 2 -6.0 -4.0
-2.0 .0 2.0 4.0 6.0
ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòò
òòòòòòôòòòòòòòòòô 6.0 ô
31 ô
ó 31
ó ó
31 ó ó
31
ó ó
31 ó ó
31
ó 4.0 ô ô ô 31
ô ô ô ó
31
ó ó 31
ó ó
31 ó
ó 31
ó ó
31 ó
2.0 ô ô ô 3221 ô
ô ô ó
32 21 ó
ó 32 21
ó ó
32 21 ó ó
32 21
ó ó 32
21 ó .0 ô
ô ô 32 ô 21 ô ô
ô ó 32
21 ó ó
32 21
ó ó 32
21 ó ó
32 21 ó
ó 32 21
ó -2.0 ô ô
ô 32 ô 21 ô ô
ó 32 21
ó ó
32 21 ó
ó 32 21
ó ó 32
21 ó ó
32 21
ó -4.0 ô ô 32
ô ô 21 ô ô ó
32 21
ó ó 32
21 ó ó
32 21
ó ó 32
21 ó ó
32 21 ó
-6.0 ô 32
21 ô
ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòò
ôòòòòòòòòòô -6.0 -4.0 -2.0
.0 2.0 4.0 6.0
Canonical Discriminant Function
1
Symbols used in territorial map Symbol Group
Label ------ ----- -------------------- 1
1 Bon 2 2 Moyen 3 3
Médiocre Indicates
a group centroid
Les droites frontières sont les médiatrices des
segments joignant les centres de gravité des
groupes
19
Premier plan discriminant et carte des qualités
Une nouvelle observation est classée dans le
groupe pour lequel la distance entre
lobservation et le centre du groupe est la plus
faible.
20
Premier plan discriminant et territoire des
qualités
Pluie













Chaleur


g1






Température
Le premier plan discriminant contient les centres
de gravité des groupes
Affecter une observation A à la classe la plus
proche (gh) est équivalent à affecter la
projection B à la classe la plus proche.
21
Distance carrée au centre de gravité dans le plan
(Z1,Z2)
22
Prévision de la qualité pourune nouvelle année
(obs. 35)
Pour le Bordeaux 1958 - Température 3
000 - Soleil 1 100 - Chaleur 20 - Pluie
300 Prévoir sa qualité.
23
Prévision de laqualité pourune nouvelleannée
(obs. 35)
24
Prévision de la qualité pourune nouvelle année
(obs. 35)
25
Résultats de lanalyse factorielle discriminante
Z1 Score prédictif de la qualité du vin
construit à partir des variables météo.
26
Résultats de lanalyse factorielle discriminante
27
Résultats de lanalyse factorielle discriminante
s Nombre maximum de variables discriminantes
k-1
Eta
28
Test en analyse factorielle discriminante(données
multinormales)
Test 1 through s (ici s2)
Test H0 ?1 ?s 0 (au niveau de la
population) H1 au moins ?1 gt 0 Statistique
Wilks Lambda (1-?12)?... ?(1-?s2) Décision
On rejette H0 au risque ? si
29
Test m through s
Test H0 ?m ?s 0 (au niveau de la
population) H1 au moins ?m gt 0 Statistique
Wilks Lambda (1-?m2)?... ?(1-?s2) Décision
On rejette H0 au risque ? si
30
Corrélation intra-classes entre les X et les Z
31
Visualisation dune corrélation intra-classes
Z
Z






Pluie
Pluie
Corrélation intra-classes négative
Corrélation globale positive
32
Analyse discriminante bayesienne
Hypothèses de base 1) Données multinormales
2) Dispersion des données identiques dans chaque
classe
La probabilité quune observation provienne de la
classe  Y h  sachant que  X x (x1,,
xp)  peut sécrire
avec des fonctions de classification gh(x) de la
forme
gh(x) bh0 bh1X1 bhpXp
où les X sont les variables dorigine.
33
Les fonctions de classification gh(x)
Elles sont calculées ici en supposant les 3
qualités a priori équiprobables
34
Calcul des probabilités de chaque qualitépour
chaqueannée
35
Qualité de la prévision
36
Validité de la qualité de la prévisionévaluée
par Jack-knife
37
Prévision de la qualité pourune nouvelle année
Pour le Bordeaux 1958 - Température 3
000 - Soleil 1 100 - Chaleur 20 - Pluie
300 Prévoir sa qualité.
38
Analyse discriminante bayesienne sur les
variables discriminantes Z1, Z2
1. La prédiction de la qualité du vin à laide
des territoires de qualité construits sur le
plan discriminant (Z1, Z2) est équivalente à
la prédiction de la qualité obtenue par
analyse discriminante bayesienne des variables
discriminantes (Z1, Z2). 2. Lanalyse
discriminante bayesienne des variables
dorigine (X1,,Xp) et lanalyse discriminante
bayesienne des variables discriminantes (Z1,
Z2) conduisent aux mêmes probabilités
calculées des modalités de Y.
39
Analyse discriminante bayesienne sur
lesvariables discriminantes Z1, Z2
40
Utilisation de la méthode de segmentation CARTY
ordinale le critère Ordered Twoing
41
Règles darrêt  - Improvement min 0.01 -
Effectif segment parent lt 25 - Effectif segment
descendant lt 1
42
  • Crossvalidation (Documentation SPSS)
  • Crossvalidation divides the sample into a
    number of subsamples, or folds.
  • Tree models are then generated, excluding
    the data from each subsample in turn.
  • The first tree is based on all of the
    cases except those in the first sample fold,
  • the second tree is based on all of the
    cases except those in the second sample fold,
  • and so on.
  • For each tree, misclassification risk is
    estimated by applying the tree to the
  • subsample excluded in generating it.
  • You can specify a maximum of 25 sample folds.
    The higher the value,
  • the fewer the number of cases excluded for
    each tree model.
  • Crossvalidation produces a single, final tree
    model. The crossvalidated risk
  • estimate for the final tree is calculated as
    the average of the risks for all of
  • the trees.

43
Deuxième exemple les races canines
44
Le tableau disjonctif complet

xijl 1 si lindividu i possède la modalité
l de la variable j 0 sinon
45
Analyse factorielle discriminante
Y Fonction X variables indicatrices des
caractéristiques physiques et psychiques
des chiens
46
Premier plan discriminant
3
grand bleu de gascogne
pointer
dobermann
levrier
fox-hound
epagneul français
2
setter
basset
1
bull-mastiff
epagneul breton
mastiff
terre-neuve
labrador (chasse)
dogue allemand
0
boxer
saint-bernard
dalmatien (compagnie)
berger allemand
-1
colley
fonction
beauceron
chihuahua
pékinois
utilité
caniche
-2
cocker
teckel
chasse
bull-dog
fox-terrier
Z2
-3
compagnie
4
2
0
-2
-4
-6
Z1
47
Variables discriminantes
48
Prévision de la fonction par calcul de la
distance carrée entre chaque chien et les centre
de gravité des classes dans le plan discriminant
(Z1, Z2)
49
Analyse discriminante bayesienne(sur les données
dorigine transformées en indicatrices)
Problème Appliquer une méthode supposant la
normalité sur des données binaires !!!!
50
Prévision de la fonction dun chien
51
Prévision de la fonction dun chien
Write a Comment
User Comments (0)
About PowerShow.com