R - PowerPoint PPT Presentation

About This Presentation
Title:

R

Description:

R gression logistique et analyse discriminante : comparaisons th oriques et pratiques Gilbert Saporta Conservatoire National des Arts et M tiers – PowerPoint PPT presentation

Number of Views:229
Avg rating:3.0/5.0
Slides: 96
Provided by: Gilbert56
Category:
Tags: logistique

less

Transcript and Presenter's Notes

Title: R


1
Régression logistique et analyse discriminante
comparaisons théoriques et pratiques
  • Gilbert Saporta
  • Conservatoire National des Arts et Métiers
  • saporta_at_cnam.fr
  • http//cedric.cnam.fr/saporta

2
Bibliographie
  • Bardos  Analyse discriminante , Dunod, 2001
  • Celeux, Nakache Analyse discriminante sur
    variables qualitatives Polytechnica ,1994
  • Droesbeke, Lejeune, Saporta (éditeurs)  Modèles
    statistiques pour données qualitatives  Technip,
    2005
  • Hastie, Tibshirani, Friedman  The Elements of
    Statistical Learning , Springer-Verlag, 2001
  • Hosmer, Lemeshow Applied logistic regression,
    Wiley, 2000
  • Nakache, Confais Statistique explicative
    appliquée , Technip, 2003
  • Thomas, Edelman,Crook   Credit scoring and its
    applications , SIAM, 2002

3
Plan
  • I Lanalyse discriminante
  • II La régression logistique
  • III Prédicteurs qualitatifs et scoring
  • IV Comparaison

4
Objet détude
  • Observations multidimensionnelles réparties en k
    groupes définis a priori. K2 le plus souvent
  • Exemples dapplication
  • Pronostic des infarctus (J.P. Nakache)
  • 2 groupes décès, survie (variables médicales)
  • Iris de Fisher
  • 3 espèces 4 variables (longueur et largeur des
    pétales et sépales)
  • Risque des demandeurs de crédit
  • 2 groupes bons, mauvais (variables
    qualitatives)
  • Autres
  • Publipostage, reclassement dans une typologie.

5
Quelques dates
  • Analyse discriminante
  • Mahalanobis (crâniologie) 1927
  • Fisher (biométrie) 1936
  • Régression logistique
  • Berkson (biostatistique) 1944
  • Cox 1958
  • Mc Fadden (économétrie) 1973

6
I Lanalyse discriminante
  • Aspect géomètrique
  • Réduction de dimension, axes et variables
    discriminantes.
  • Cas de 2 groupes.
  • Méthodes géométriques de classement.
  • AD probabiliste

7
Représentation des données
  • n points dans ?p appartenant à k groupes.

8
Réduction de dimension. Recherche daxes et de
variables discriminantes.
  • Dispersion intergroupe et dispersion intra groupe.
  • W matrice variance intra
  • W 1/n Sni Vi
  • B matrice variance inter
  • B 1/n Sni (gi - g) (gi - g)
  • V W B variance totale

9
Axes discriminants deux objectifs
  • Dispersion intraclasse minimale min uWu
  • Dispersion interclasse maximale max uBu

10
  • Simultanéité impossible
  • Compromis

11
  • ACP du nuage des gi avec
  • Métrique V-1
  • Métrique W-1 Mahalanobis

12
Nombre daxes discriminants
  • ACP des groupes dimension de lespace contenant
    les groupes gi
  • Si ngtpgtk (cas usuel), k-1 axes discriminants
  • Exemple célèbre Iris de Fisher
  • K 3 Setosa, Versicolor, Virginica
  • P4 longueur pétale, longueur sépale, largeur
    pétale, largeur sépale
  • n1n2n3 50
  • Donc deux axes

13


Iris setosa Iris versicolor Iris virginica
14
(No Transcript)
15
(No Transcript)
16
Cas de deux groupes
  • g1 et g2 sont sur une une droite 1 seul axe
    discriminant
  • RAPPEL en ACP axe a, facteur u M a
  • Combinaison discriminante proportionnelle à
  • M (g2 - g1) W-1 (g2 - g1) ou V-1 (g2 - g1)
  • FONCTION DE FISHER

17
Historique
18
Distance de MAHALANOBIS
  • Distance au sens de la métrique W-1.
  • pour p1
  • p quelconque
  • Standardisation de chaque composante xj
  • Décorrélation...

19
Équivalence régression
20
Équivalence régression
  • MAIS Modèle linéaire usuel non valide
  • en discriminante cest linverse que lon suppose

21
Conséquences
  • Pas de test,
  • pas derreurs standard sur les coefficients
  • MAIS possibilité dutiliser les méthodes de pas à
    pas en régression.
  • Aussi une source de malentendus

22
Obs C PRONO FRCAR INCAR INSYS
PRDIA PAPUL PVENT REPUL   1
2 SURVIE 90 1.71 19.0 16
19.5 16.0 912 2 1
DECES 90 1.68 18.7 24
31.0 14.0 1476 3 1 DECES
120 1.40 11.7 23 29.0
8.0 1657 4 2 SURVIE 82
1.79 21.8 14 17.5 10.0
782 5 1 DECES 80 1.58
19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1
18 23.5 9.0 1664 7
2 SURVIE 94 2.04 21.7 23
27.0 10.0 1059 8 2
SURVIE 80 1.19 14.9 16
21.0 16.5 1412 9 2 SURVIE
78 2.16 27.7 15 20.5
11.5 759 10 2 SURVIE 100
2.28 22.8 16 23.0 4.0
807 11 2 SURVIE 90 2.79
31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4
15 23.0 9.5 681 13
2 SURVIE 80 2.61 32.6 8
15.0 1.0 460 14 2
SURVIE 61 2.84 47.3 11
17.0 12.0 479 15 2 SURVIE
99 3.12 31.8 15 20.0
11.0 513 16 2 SURVIE 92
2.47 26.8 12 19.0 11.0
615 17 2 SURVIE 96 1.88
19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8
10 14.0 10.5 659 19
2 SURVIE 125 3.37 26.9 18
28.0 6.0 665 20 2
SURVIE 80 2.01 25.0 15
20.0 6.0 796
23
SPAD
FONCTION LINEAIRE DISCRIMINANTE   VARIABLES
CORRELATIONS COEFFICIENTS
ECARTS T PROBA ........
VARIABLES FONCTION REGRESSION
TYPES STUDENT NUM LIBELLES
AVEC F.L.D. DISC. (RES.
TYPE REG.)
(SEUIL 0.20) ....................................
..................................................
........ 3 FRCAR
0.232 0.0588 0.0133 0.0092
1.44 0.154 4 INCAR
-0.697 -6.1539 -1.3887 0.4966
2.80 0.006 5 INSYS
-0.673 0.1668 0.0376 0.0374
1.01 0.317 6 PRDIA
0.474 -0.0203 -0.0046 0.0351
0.13 0.897 7 PAPUL
0.431 0.1650 0.0372 0.0271
1.37 0.173 8 PVENT
0.269 0.0469 0.0106 0.0176
0.60 0.549 9 REPUL
0.650 -0.0002 0.0000 0.0002
0.19 0.849 CONSTANTE
-1.604374 -0.367565 0.9373 0.3922
0.6958 ...........................................
..................................................
. R2 0.55759 F 16.74489 PROBA
0.000 D2 4.94213 T2 124.77643
PROBA 0.000 ..............................
..................................................
..............
24
Méthodes géométriques de classement
  • Échantillon dapprentissage
  • e observation de groupe inconnu
  • e classé dans le groupe i tel que
  • d(e gi) minimal

25
pour deux groupes
  • On classe dans G1 si
  • Fonction de Fisher gtc
  • Score de Fisher

26
Interprétation géométrique
  • Projection sur la droite des centres avec la
    métrique W-1
  • Dualité axe-frontière plane

frontière
axe discriminant
27
Analyse discriminante probabiliste.
28
La règle bayésienne naïve dans le cadre normal
29
La règle bayésienne

30
Analyse discriminante probabiliste cas de
deux groupes
31
Fonction de score et probabilité
  • Fonction de score S(x)
  • Règle affecter au groupe 1 si S(x)gt0
  • Probabilité dappartenance au groupe 1

32
Probabilité a posteriori
33
S(x)
  • Probabilité derreur de classement de G2 en G1 
  • On classe en G1 si S(x)gt0

34
Proc discrim SAS
35
II La régression logistique
  • II.1 Le modèle logistique simple
  • II.2 Odds ratios
  • II.3 Interprétation économètrique
  • II.4 Estimation
  • II.5 Tests

36
II.1 Le modèle logistique simple
  • Réponse dichotomique Y 0 / 1
  • Variable explicative X
  • Objectif Modéliser

?(x) Prob(Y 1/X x)
  • Le modèle linéaire ?(x) ?0 ?1x convient mal
    lorsque X est continue.
  • Le modèle logistique est plus naturel

37
Le modèle logistique simple
ou
Fonction de lien Logit
38
  • Il sagit bien dun probléme de régression
  • Modélisation de lespérance conditionnelle
  • E(Y/Xx)f(x)
  • Choix de la forme logistique en épidémiologie
  • Sajuste bien
  • Interprétation de ?1 en termes dodds-ratio

39
II.2 Odds-Ratio
  • Si X binaire (sujet exposé X1, non exposé X0)

40
Odds-Ratio
  • Mesure lévolution du rapport des chances
    dapparition de lévénement Y1 contre Y0 (la
    cote des parieurs) lorsque X passe de x à x1.
  • Formule générale

41
II.3Interprétation économètrique
  • Y possession dun bien durable par un ménage
    manifestation visible dune variable latente Z
    inobservable continue.
  • Z est l intensité du désir  de posséder le
    bien
  • Si Zltseuil Y0, sinon Y1
  • Le seuil peut être choisi égal à 0

42
Modèle dutilité
  • pour le ménage i de caractéristiques xi (âge,
    sexe, revenu, CSP...), la possession du bien
    procure un niveau dutilité U(1,xi), la non
    possession U(0,xi).
  • Yi 1 ? U(1,xi) gt U(0,xi)
  • Yi 0 ? U(0,xi) gt U(1,xi)
  • Variable latente Zi U(1,xi) U(0,xi).

43
Modèle dutilité (suite)
  • Zi xi ? ?i
  • pi P(Yi1xi) P(Zi gt 0)P(xi ?gt -?i) F(xi?)
  • F fonction de répartition de -?i
  • Choix de F
  • Logistique modèle logit, régression logistique
  • Normal modèle probit

44
II.4 Estimation des paramètres
Les données
Le modèle
yi 1 si caractère présent, 0 sinon
45
Vraisemblance (conditionnelle!)
  • Probabilité dobserver les données
  • (x1,y1), , (xi,yi), , (xn,yn)

46
maximum de vraisemblance
  • maximisent
  • Maximisation de la log-vraisemblance
  • Estimateurs obtenus par des procédures
    numériques pas dexpression analytique

47
Précision (asymptotique) des estimateurs
  • La matrice
  • est estimée par la matrice

48
(No Transcript)
49
Régression logistique multiple
  • Généralisation à p variables explicatives X1,,
    Xp.

50
(No Transcript)
51
II.5 Tests sur les paramètres
  • Trois méthodes sont disponibles pour tester
    lapport de la variable X au modèle 
  • Le test de Wald
  • La méthode du rapport de vraisemblance
  • Le test du score 

52
Test de Wald
  • analogue à un test de Student en régression
    usuelle, si lon considère la statistique w
    définie par 
  • représente lestimation de
    lécart-type de lestimateur de ?1.
  • Sous lhypothèse H0, w2 suit approximativement
    une loi du khi-deux à un degré de liberté .
  • Rejet de H0 si w2

53
Test du rapport des vraisemblances
  • Lapport de la variable X est mesuré à laide de
    la statistique 
  •  G -2 log
  •  
  • sous lhypothèse H0 G suit asymptotiquement une
    loi du khi-deux à un degré de liberté.
  • Vraisemblance sans la variable

54
Test du score
  • U vecteur des dérivées partielles de la
    log-vraisemblance estimées
  • Le score suit également asymptotiquement sous H0
    une loi du khi-deux à un degré de liberté
  • En régression logistique simple, le score est
    égal à nr2 , où r est le coefficient de
    corrélation linéaire (abusif!) entre Y et X

55
Comparaison des 3 tests
56
Tests
  • Tests dabsence deffet de toutes les variables
    H0  ?1 ?p 0
  • Rapport de vraisemblance G
  • Score test U
  • Sous H0, suivent tous deux asymptotiquement une
    loi du ?2 à p ddl

57
III Discrimination sur variables qualitatives et
scoring
58
Un peu de (pré)histoire
  • Fisher (1940)
  • Un seul prédicteur
  • Equations de lAFC
  •  Scores  were introduced

59
(No Transcript)
60
(No Transcript)
61
Cas général p prédicteurs
  • Quantification optimale
  • Donner des scores partiels aux catégories pour
    maximiser la distance de Mahalanobis dans Rp
  • Une analyse discriminante où les variables
    qualitatives sont remplacées par des indicatrices

X
62
  • X nest pas de plein rang rank(X)?mi-p
  • Solution classique éliminer une indicatrice par
    prédicteur
  • Disqual (Saporta, 1975)
  • ADL effectuée sur une sélection de facteurs de
    lACM de X. Analogue de la régression sur
    composantes principales

63
DISQUAL 1ère étape
  • Analyse des correspondances du tableau des
    prédicteurs.
  • k variables numériques garder les coordonnées
    factorielles les plus discriminantes

64
2ème étape
  • Analyse discriminante linéaire (Fisher).
  • Score combinaison linéaire des coordonnées
    factorielles combinaison linéaire des
    indicatrices des catégories
  • Coefficients grille de notation

65
Sélection des axes
  • Selon lordre de  lACM
  • dinertie
  • Selon le pouvoir discriminant
  • Student sur 2 groupes,F sur k groupes

66
Example assurance (SPAD)
  • 1106 contrats automobile belges
  • 2 groupes  1 bons,  2 mauvais 
  • 9 prédicteurs 20 catégories
  • Usage (2), sexe (3), langue (2), age (3), région
    (2), bonus-malus (2), puissance (2), durée (2),
    age du véhicule (2)

67
ACM
68
ADL de Fisher sur les composantes  FACTEURS
CORRELATIONS COEFFICIENTS
.................................................
............................. 1 F 1
0.719 6.9064 2 F 2 0.055
0.7149 3 F 3 -0.078
-0.8211 4 F 4 -0.030
-0.4615 5 F 5 0.083
1.2581 6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169 8 F 8
0.090 1.3133 9 F 9
-0.074 -1.1383 10 F 10
-0.150 -3.3193 11 F 11
-0.056 -1.4830 CONSTANTE
0.093575 ..........................
..................................................
.. R2 0.57923 F 91.35686 D2
5.49176 T2 1018.69159
.................................................
.............................
Score 6.90 F1 - 0.82 F3 1.25 F5 1.31 F8 -
1.13 F9 - 3.31 F10
69
  • scores normalisés
  • Echelle de 0 à 1000
  • Transformation linéaire du score et du seuil

70
Grille de score
71
Scoring et régression logistique
  • Inclusion aisée de prédicteurs qualitatifs en
    introduisant mi-1 indicatrices
  • Modalité omise modalité de référence. Attention
    à linterprétation
  • Standard de lindustrie bancaire (sauf Banque de
    France)

72
(No Transcript)
73
IV Comparaison logistique- discriminante
  • Avantages proclamés de la logistique
  • Interprétabilité des coefficients (odds-ratios)
  • Erreurs standard calculables
  • Modélisation des probabilités
  • Hypothèses plus générales quen AD gaussienne
  • Maximum de vraisemblance au lieu de moindres
    carrés (régression linéaire de Y sur les Xj)
  • Prise en charge facile des X qualitatifs
    (logiciels)

74
  • Mais
  • Erreurs standard asymptotiques , bootstrap en AD
  • Non convergence en cas de séparation parfaite.
    Fisher existe toujours
  • Maximum de vraisemblance conditionnelnon optimal
    dans le cas gaussien standard
  • LAD peut aussi traiter les variables
    qualitatives, et de manière plus robuste grâce
    aux contraintes de sous-espace (Disqual)

75
  • Querelle largement idéologique (modélisation
    versus analyse des données)
  • LAD est aussi un modèle, mais sur les lois des
    X/Y, la logistique sur les lois de Y/X
  • En pratique différences peu nettes fonctions de
    score souvent très proches
  •   It is generally felt that logistic regression
    is a safer, more robust bet than the LDA model,
    relying on fewer assumptions . It is our
    experience that the models give very similar
    results , even when LDA is used in
    inappropriately, such as with qualitative
    variables. Hastie and al.(2001)

76
  Variable N Mean
Std Dev Sum Minimum
Maximum   scorfish 101 1.00000
1.47644 101.00000 -2.42806
4.21377 scorlog 101 -0.22423
3.68078 -22.64725 -8.76376
7.86074  
scorfish
scorlog   scorfish
1.00000 0.99881

scorlog 0.99881
1.00000
77
  • Usages souvent différents AD pour classer,
    logistique pour modéliser (facteurs de risque)
  • Logistique aussi utilisée en scoring
  • Si lobjectif est de classer
  • On ne fait plus de la science mais de laide à
    la décision
  • Mieux vaut essayer les deux méthodes.
  • Mais comment les comparer?
  • Le vrai critère de choix est la performance en
    généralisation

78
Qualité dune règle de classement
  • Tableau de classement
  • On classe des observations dont le groupe est
    connu
  • Pourcentage de bien classés
  • Taux derreur de classement

79
Sur quel échantillon faire ce tableau ?
  • Échantillon test dindividus supplémentaires.
  • Si on reclasse léchantillon ayant servi à
    construire la règle (estimation des coefficients)
    méthode de resubstitution ? BIAIS
  • surestimation du pourcentage de bien classés.
  • Solutions pour des échantillons de petite taille
    Validation croisée ou bootstrap

80
Seuil et probabilités a posteriori
  • P(G1/x) dépend des probas a priori p1 et p2
  • Problèmes de léchantillonnage stratifié
  • poser priors en discrim ou pevent en
    Logistic
  • sinon probas a posteriori fausses
  • seul le terme constant ?0 est modifié on
    ajoute ln(p2/p1)
  • Sans importance pour un score

81
Qualité dun score
  • Quil soit obtenu par Fisher ou logistique
  • Comparaison des distributions du score sur les
    deux groupes
  • fonctions de répartition

82
Courbe ROC
  • Groupe à détecter G1 scores élevés
  • Sensibilité 1-? P(Sgts/G1) de vrais positifs
  • Spécificité 1-?P(Slts/G2) de vrais négatifs

83
Courbe ROC
84
Courbe ROC
  • Evolution de 1-? puissance du test en fonction de
    ?, risque de première espèce lorsque le seuil
    varie
  • Proportion de vrais positifs en fonction de la
    proportion de faux positifs
  • Un site http//www.anaesthetist.com/mnm/stats/roc
    /

85
  • Courbe ROC invariante pour toute transformation
    monotone croissante
  • Surface sous la courbe mesure de performance
    permettant de comparer (partiellement) des
    modèles
  • On tire une obs de G1 et une de G2
  • AUC estimée par la proportion de paires
    concordantes
  • nc statistique de Wilcoxon-Mann-Whitney
  • UW n1n20.5n1(n11) AUCU/n1n2

86
Exemple infarctus proc logistic
Association des probabilités prédites et des
réponses observées Pairs 2550
Percent Concordant 94.3 Percent
Discordant 5.7 Percent Tied
0.0 Somers' D 0.886 Gamma 0.886
Tau-a 0.447 c
0.943
87
Infarctus comparaison Fisher et logistique




88
Assurance
89
(No Transcript)
90
Lift chart
of the target
91
Surface sous la courbe de lift
  • Proportion des unités ayant un scoregts
  • Surface

92
Coefficient Ki (Kxen)
  • Ki(aire entre courbe lift et diagonale) / (aire
    entre courbe lift et courbe idéale)

KiSomers D ou Accuracy Ratio AR
93
  • Optimiser AUC ou Ki mêmes résultats.
  • Ne prend pas en compte les coûts
  • Ne pas comparer sur données dapprentissage

94
Les 3 échantillons
  • Apprentissage pour estimer les paramètres des
    modèles
  • Test pour choisir le meilleur modèle
  • Validation pour estimer la performance sur des
    données futures
  • Nécessité de faire plusieurs tirages
  • Modèle final avec toutes les observations

95
Conclusion
  • ADL et régression logistique fondements
    également solides mais différents
  • Un faux débat sil sagit seulement de prédire.
  • Convergence des pratiques
  • validation en logistique
  • Courbe ROC en discriminante
  • Prudence quand on calcule des probabilités
  • Vraies probas ou simples scores
Write a Comment
User Comments (0)
About PowerShow.com