Title: R
1Régression logistique et analyse discriminante
comparaisons théoriques et pratiques
- Gilbert Saporta
- Conservatoire National des Arts et Métiers
- saporta_at_cnam.fr
- http//cedric.cnam.fr/saporta
2Bibliographie
- Bardos Analyse discriminante , Dunod, 2001
- Celeux, Nakache Analyse discriminante sur
variables qualitatives Polytechnica ,1994 - Droesbeke, Lejeune, Saporta (éditeurs) Modèles
statistiques pour données qualitatives Technip,
2005 - Hastie, Tibshirani, Friedman The Elements of
Statistical Learning , Springer-Verlag, 2001 - Hosmer, Lemeshow Applied logistic regression,
Wiley, 2000 - Nakache, Confais Statistique explicative
appliquée , Technip, 2003 - Thomas, Edelman,Crook Credit scoring and its
applications , SIAM, 2002
3Plan
- I Lanalyse discriminante
- II La régression logistique
- III Prédicteurs qualitatifs et scoring
- IV Comparaison
4Objet détude
- Observations multidimensionnelles réparties en k
groupes définis a priori. K2 le plus souvent - Exemples dapplication
- Pronostic des infarctus (J.P. Nakache)
- 2 groupes décès, survie (variables médicales)
- Iris de Fisher
- 3 espèces 4 variables (longueur et largeur des
pétales et sépales) - Risque des demandeurs de crédit
- 2 groupes bons, mauvais (variables
qualitatives) - Autres
- Publipostage, reclassement dans une typologie.
5Quelques dates
- Analyse discriminante
- Mahalanobis (crâniologie) 1927
- Fisher (biométrie) 1936
- Régression logistique
- Berkson (biostatistique) 1944
- Cox 1958
- Mc Fadden (économétrie) 1973
6I Lanalyse discriminante
- Aspect géomètrique
- Réduction de dimension, axes et variables
discriminantes. - Cas de 2 groupes.
- Méthodes géométriques de classement.
- AD probabiliste
7Représentation des données
- n points dans ?p appartenant à k groupes.
8Réduction de dimension. Recherche daxes et de
variables discriminantes.
- Dispersion intergroupe et dispersion intra groupe.
- W matrice variance intra
- W 1/n Sni Vi
- B matrice variance inter
- B 1/n Sni (gi - g) (gi - g)
- V W B variance totale
9Axes discriminants deux objectifs
- Dispersion intraclasse minimale min uWu
- Dispersion interclasse maximale max uBu
10- Simultanéité impossible
- Compromis
11- ACP du nuage des gi avec
- Métrique V-1
- Métrique W-1 Mahalanobis
12Nombre daxes discriminants
- ACP des groupes dimension de lespace contenant
les groupes gi - Si ngtpgtk (cas usuel), k-1 axes discriminants
- Exemple célèbre Iris de Fisher
- K 3 Setosa, Versicolor, Virginica
- P4 longueur pétale, longueur sépale, largeur
pétale, largeur sépale - n1n2n3 50
- Donc deux axes
13 Iris setosa Iris versicolor Iris virginica
14(No Transcript)
15(No Transcript)
16 Cas de deux groupes
- g1 et g2 sont sur une une droite 1 seul axe
discriminant - RAPPEL en ACP axe a, facteur u M a
- Combinaison discriminante proportionnelle à
- M (g2 - g1) W-1 (g2 - g1) ou V-1 (g2 - g1)
- FONCTION DE FISHER
17Historique
18Distance de MAHALANOBIS
- Distance au sens de la métrique W-1.
- pour p1
- p quelconque
- Standardisation de chaque composante xj
- Décorrélation...
19Équivalence régression
20Équivalence régression
- MAIS Modèle linéaire usuel non valide
- en discriminante cest linverse que lon suppose
21Conséquences
- Pas de test,
- pas derreurs standard sur les coefficients
- MAIS possibilité dutiliser les méthodes de pas à
pas en régression. - Aussi une source de malentendus
22 Obs C PRONO FRCAR INCAR INSYS
PRDIA PAPUL PVENT REPUL 1
2 SURVIE 90 1.71 19.0 16
19.5 16.0 912 2 1
DECES 90 1.68 18.7 24
31.0 14.0 1476 3 1 DECES
120 1.40 11.7 23 29.0
8.0 1657 4 2 SURVIE 82
1.79 21.8 14 17.5 10.0
782 5 1 DECES 80 1.58
19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1
18 23.5 9.0 1664 7
2 SURVIE 94 2.04 21.7 23
27.0 10.0 1059 8 2
SURVIE 80 1.19 14.9 16
21.0 16.5 1412 9 2 SURVIE
78 2.16 27.7 15 20.5
11.5 759 10 2 SURVIE 100
2.28 22.8 16 23.0 4.0
807 11 2 SURVIE 90 2.79
31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4
15 23.0 9.5 681 13
2 SURVIE 80 2.61 32.6 8
15.0 1.0 460 14 2
SURVIE 61 2.84 47.3 11
17.0 12.0 479 15 2 SURVIE
99 3.12 31.8 15 20.0
11.0 513 16 2 SURVIE 92
2.47 26.8 12 19.0 11.0
615 17 2 SURVIE 96 1.88
19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8
10 14.0 10.5 659 19
2 SURVIE 125 3.37 26.9 18
28.0 6.0 665 20 2
SURVIE 80 2.01 25.0 15
20.0 6.0 796
23SPAD
FONCTION LINEAIRE DISCRIMINANTE VARIABLES
CORRELATIONS COEFFICIENTS
ECARTS T PROBA ........
VARIABLES FONCTION REGRESSION
TYPES STUDENT NUM LIBELLES
AVEC F.L.D. DISC. (RES.
TYPE REG.)
(SEUIL 0.20) ....................................
..................................................
........ 3 FRCAR
0.232 0.0588 0.0133 0.0092
1.44 0.154 4 INCAR
-0.697 -6.1539 -1.3887 0.4966
2.80 0.006 5 INSYS
-0.673 0.1668 0.0376 0.0374
1.01 0.317 6 PRDIA
0.474 -0.0203 -0.0046 0.0351
0.13 0.897 7 PAPUL
0.431 0.1650 0.0372 0.0271
1.37 0.173 8 PVENT
0.269 0.0469 0.0106 0.0176
0.60 0.549 9 REPUL
0.650 -0.0002 0.0000 0.0002
0.19 0.849 CONSTANTE
-1.604374 -0.367565 0.9373 0.3922
0.6958 ...........................................
..................................................
. R2 0.55759 F 16.74489 PROBA
0.000 D2 4.94213 T2 124.77643
PROBA 0.000 ..............................
..................................................
..............
24Méthodes géométriques de classement
- Échantillon dapprentissage
- e observation de groupe inconnu
- e classé dans le groupe i tel que
- d(e gi) minimal
25pour deux groupes
- On classe dans G1 si
- Fonction de Fisher gtc
- Score de Fisher
26Interprétation géométrique
- Projection sur la droite des centres avec la
métrique W-1 - Dualité axe-frontière plane
frontière
axe discriminant
27Analyse discriminante probabiliste.
28 La règle bayésienne naïve dans le cadre normal
29La règle bayésienne
30Analyse discriminante probabiliste cas de
deux groupes
31Fonction de score et probabilité
- Fonction de score S(x)
- Règle affecter au groupe 1 si S(x)gt0
- Probabilité dappartenance au groupe 1
32Probabilité a posteriori
33S(x)
- Probabilité derreur de classement de G2 en G1
- On classe en G1 si S(x)gt0
34Proc discrim SAS
35II La régression logistique
- II.1 Le modèle logistique simple
- II.2 Odds ratios
- II.3 Interprétation économètrique
- II.4 Estimation
- II.5 Tests
36II.1 Le modèle logistique simple
- Réponse dichotomique Y 0 / 1
- Variable explicative X
- Objectif Modéliser
-
?(x) Prob(Y 1/X x)
- Le modèle linéaire ?(x) ?0 ?1x convient mal
lorsque X est continue. - Le modèle logistique est plus naturel
37Le modèle logistique simple
ou
Fonction de lien Logit
38 - Il sagit bien dun probléme de régression
- Modélisation de lespérance conditionnelle
- E(Y/Xx)f(x)
- Choix de la forme logistique en épidémiologie
- Sajuste bien
- Interprétation de ?1 en termes dodds-ratio
39II.2 Odds-Ratio
- Si X binaire (sujet exposé X1, non exposé X0)
40Odds-Ratio
- Mesure lévolution du rapport des chances
dapparition de lévénement Y1 contre Y0 (la
cote des parieurs) lorsque X passe de x à x1. - Formule générale
41II.3Interprétation économètrique
- Y possession dun bien durable par un ménage
manifestation visible dune variable latente Z
inobservable continue. - Z est l intensité du désir de posséder le
bien - Si Zltseuil Y0, sinon Y1
- Le seuil peut être choisi égal à 0
42Modèle dutilité
- pour le ménage i de caractéristiques xi (âge,
sexe, revenu, CSP...), la possession du bien
procure un niveau dutilité U(1,xi), la non
possession U(0,xi). - Yi 1 ? U(1,xi) gt U(0,xi)
- Yi 0 ? U(0,xi) gt U(1,xi)
- Variable latente Zi U(1,xi) U(0,xi).
43Modèle dutilité (suite)
- Zi xi ? ?i
- pi P(Yi1xi) P(Zi gt 0)P(xi ?gt -?i) F(xi?)
- F fonction de répartition de -?i
- Choix de F
- Logistique modèle logit, régression logistique
- Normal modèle probit
44II.4 Estimation des paramètres
Les données
Le modèle
yi 1 si caractère présent, 0 sinon
45Vraisemblance (conditionnelle!)
- Probabilité dobserver les données
- (x1,y1), , (xi,yi), , (xn,yn)
46maximum de vraisemblance
- maximisent
- Maximisation de la log-vraisemblance
- Estimateurs obtenus par des procédures
numériques pas dexpression analytique
47Précision (asymptotique) des estimateurs
- La matrice
- est estimée par la matrice
-
48(No Transcript)
49Régression logistique multiple
- Généralisation à p variables explicatives X1,,
Xp.
50(No Transcript)
51II.5 Tests sur les paramètres
- Trois méthodes sont disponibles pour tester
lapport de la variable X au modèle - Le test de Wald
- La méthode du rapport de vraisemblance
- Le test du score
52Test de Wald
- analogue à un test de Student en régression
usuelle, si lon considère la statistique w
définie par -
- représente lestimation de
lécart-type de lestimateur de ?1. - Sous lhypothèse H0, w2 suit approximativement
une loi du khi-deux à un degré de liberté . - Rejet de H0 si w2
53Test du rapport des vraisemblances
- Lapport de la variable X est mesuré à laide de
la statistique - G -2 log
-
- sous lhypothèse H0 G suit asymptotiquement une
loi du khi-deux à un degré de liberté. - Vraisemblance sans la variable
54Test du score
- U vecteur des dérivées partielles de la
log-vraisemblance estimées - Le score suit également asymptotiquement sous H0
une loi du khi-deux à un degré de liberté - En régression logistique simple, le score est
égal à nr2 , où r est le coefficient de
corrélation linéaire (abusif!) entre Y et X
55Comparaison des 3 tests
56Tests
- Tests dabsence deffet de toutes les variables
H0 ?1 ?p 0 - Rapport de vraisemblance G
- Score test U
- Sous H0, suivent tous deux asymptotiquement une
loi du ?2 à p ddl
57III Discrimination sur variables qualitatives et
scoring
58Un peu de (pré)histoire
- Fisher (1940)
- Un seul prédicteur
- Equations de lAFC
- Scores were introduced
59(No Transcript)
60(No Transcript)
61Cas général p prédicteurs
- Quantification optimale
- Donner des scores partiels aux catégories pour
maximiser la distance de Mahalanobis dans Rp - Une analyse discriminante où les variables
qualitatives sont remplacées par des indicatrices
X
62 - X nest pas de plein rang rank(X)?mi-p
- Solution classique éliminer une indicatrice par
prédicteur - Disqual (Saporta, 1975)
- ADL effectuée sur une sélection de facteurs de
lACM de X. Analogue de la régression sur
composantes principales
63DISQUAL 1ère étape
- Analyse des correspondances du tableau des
prédicteurs. - k variables numériques garder les coordonnées
factorielles les plus discriminantes
642ème étape
- Analyse discriminante linéaire (Fisher).
- Score combinaison linéaire des coordonnées
factorielles combinaison linéaire des
indicatrices des catégories - Coefficients grille de notation
65Sélection des axes
- Selon lordre de lACM
- dinertie
- Selon le pouvoir discriminant
- Student sur 2 groupes,F sur k groupes
66Example assurance (SPAD)
- 1106 contrats automobile belges
- 2 groupes 1 bons, 2 mauvais
- 9 prédicteurs 20 catégories
- Usage (2), sexe (3), langue (2), age (3), région
(2), bonus-malus (2), puissance (2), durée (2),
age du véhicule (2)
67ACM
68ADL de Fisher sur les composantes FACTEURS
CORRELATIONS COEFFICIENTS
.................................................
............................. 1 F 1
0.719 6.9064 2 F 2 0.055
0.7149 3 F 3 -0.078
-0.8211 4 F 4 -0.030
-0.4615 5 F 5 0.083
1.2581 6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169 8 F 8
0.090 1.3133 9 F 9
-0.074 -1.1383 10 F 10
-0.150 -3.3193 11 F 11
-0.056 -1.4830 CONSTANTE
0.093575 ..........................
..................................................
.. R2 0.57923 F 91.35686 D2
5.49176 T2 1018.69159
.................................................
.............................
Score 6.90 F1 - 0.82 F3 1.25 F5 1.31 F8 -
1.13 F9 - 3.31 F10
69- scores normalisés
- Echelle de 0 à 1000
- Transformation linéaire du score et du seuil
70Grille de score
71Scoring et régression logistique
- Inclusion aisée de prédicteurs qualitatifs en
introduisant mi-1 indicatrices - Modalité omise modalité de référence. Attention
à linterprétation - Standard de lindustrie bancaire (sauf Banque de
France)
72(No Transcript)
73 IV Comparaison logistique- discriminante
- Avantages proclamés de la logistique
- Interprétabilité des coefficients (odds-ratios)
- Erreurs standard calculables
- Modélisation des probabilités
- Hypothèses plus générales quen AD gaussienne
- Maximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj) - Prise en charge facile des X qualitatifs
(logiciels)
74- Mais
- Erreurs standard asymptotiques , bootstrap en AD
- Non convergence en cas de séparation parfaite.
Fisher existe toujours - Maximum de vraisemblance conditionnelnon optimal
dans le cas gaussien standard - LAD peut aussi traiter les variables
qualitatives, et de manière plus robuste grâce
aux contraintes de sous-espace (Disqual)
75 - Querelle largement idéologique (modélisation
versus analyse des données) - LAD est aussi un modèle, mais sur les lois des
X/Y, la logistique sur les lois de Y/X - En pratique différences peu nettes fonctions de
score souvent très proches - It is generally felt that logistic regression
is a safer, more robust bet than the LDA model,
relying on fewer assumptions . It is our
experience that the models give very similar
results , even when LDA is used in
inappropriately, such as with qualitative
variables. Hastie and al.(2001)
76 Variable N Mean
Std Dev Sum Minimum
Maximum scorfish 101 1.00000
1.47644 101.00000 -2.42806
4.21377 scorlog 101 -0.22423
3.68078 -22.64725 -8.76376
7.86074
scorfish
scorlog scorfish
1.00000 0.99881
scorlog 0.99881
1.00000
77 - Usages souvent différents AD pour classer,
logistique pour modéliser (facteurs de risque) - Logistique aussi utilisée en scoring
- Si lobjectif est de classer
- On ne fait plus de la science mais de laide à
la décision - Mieux vaut essayer les deux méthodes.
- Mais comment les comparer?
- Le vrai critère de choix est la performance en
généralisation
78Qualité dune règle de classement
- Tableau de classement
- On classe des observations dont le groupe est
connu - Pourcentage de bien classés
- Taux derreur de classement
79Sur quel échantillon faire ce tableau ?
- Échantillon test dindividus supplémentaires.
- Si on reclasse léchantillon ayant servi à
construire la règle (estimation des coefficients)
méthode de resubstitution ? BIAIS - surestimation du pourcentage de bien classés.
- Solutions pour des échantillons de petite taille
Validation croisée ou bootstrap
80Seuil et probabilités a posteriori
- P(G1/x) dépend des probas a priori p1 et p2
- Problèmes de léchantillonnage stratifié
- poser priors en discrim ou pevent en
Logistic - sinon probas a posteriori fausses
- seul le terme constant ?0 est modifié on
ajoute ln(p2/p1) - Sans importance pour un score
81Qualité dun score
- Quil soit obtenu par Fisher ou logistique
- Comparaison des distributions du score sur les
deux groupes - fonctions de répartition
82Courbe ROC
- Groupe à détecter G1 scores élevés
- Sensibilité 1-? P(Sgts/G1) de vrais positifs
- Spécificité 1-?P(Slts/G2) de vrais négatifs
83Courbe ROC
84Courbe ROC
- Evolution de 1-? puissance du test en fonction de
?, risque de première espèce lorsque le seuil
varie - Proportion de vrais positifs en fonction de la
proportion de faux positifs - Un site http//www.anaesthetist.com/mnm/stats/roc
/
85- Courbe ROC invariante pour toute transformation
monotone croissante - Surface sous la courbe mesure de performance
permettant de comparer (partiellement) des
modèles -
- On tire une obs de G1 et une de G2
- AUC estimée par la proportion de paires
concordantes - nc statistique de Wilcoxon-Mann-Whitney
- UW n1n20.5n1(n11) AUCU/n1n2
86Exemple infarctus proc logistic
Association des probabilités prédites et des
réponses observées Pairs 2550
Percent Concordant 94.3 Percent
Discordant 5.7 Percent Tied
0.0 Somers' D 0.886 Gamma 0.886
Tau-a 0.447 c
0.943
87Infarctus comparaison Fisher et logistique
88Assurance
89(No Transcript)
90Lift chart
of the target
91Surface sous la courbe de lift
- Proportion des unités ayant un scoregts
- Surface
92Coefficient Ki (Kxen)
- Ki(aire entre courbe lift et diagonale) / (aire
entre courbe lift et courbe idéale)
KiSomers D ou Accuracy Ratio AR
93- Optimiser AUC ou Ki mêmes résultats.
- Ne prend pas en compte les coûts
- Ne pas comparer sur données dapprentissage
-
94Les 3 échantillons
- Apprentissage pour estimer les paramètres des
modèles - Test pour choisir le meilleur modèle
- Validation pour estimer la performance sur des
données futures - Nécessité de faire plusieurs tirages
- Modèle final avec toutes les observations
95Conclusion
- ADL et régression logistique fondements
également solides mais différents - Un faux débat sil sagit seulement de prédire.
- Convergence des pratiques
- validation en logistique
- Courbe ROC en discriminante
- Prudence quand on calcule des probabilités
- Vraies probas ou simples scores