Explication dune variable dpendante binaire - PowerPoint PPT Presentation

1 / 33
About This Presentation
Title:

Explication dune variable dpendante binaire

Description:

Les deux m thodes ont une base th orique solide et donnent des r sultats souvent tr s ... pj = probabilit que l'individu choisisse l 'alternative j ... – PowerPoint PPT presentation

Number of Views:344
Avg rating:3.0/5.0
Slides: 34
Provided by: POSTA7
Category:

less

Transcript and Presenter's Notes

Title: Explication dune variable dpendante binaire


1
Explication dune variable dépendante binaire
Analyse des donnéesappliquée au marketing
  • Pierre DESMET

2
REGRESSION LOGISTIQUE
  • Problématique générale
  • Régression Logistique
  • Courbe Lift
  • Courbe ROC
  • Les deux méthodes ont une base théorique solide
    et donnent des résultats souvent très proches
  • Analyse discriminante
  • plutôt pour une classification
  • suppose une normalité, mais est robuste à la
    violation de cette hypothèse
  • donne toujours un résultat mais pas dintervalle
    de confiance
  • Logistique
  • plutôt pour un score
  • pas dhyp de normalité
  • ne donne pas toujours un résultat

3
Prévoir des comportements
  • Peut-on identifier les facteurs qui influencent
  • La décision dachat dun produit ou service
  • La décision de ne plus être client (Lattrition)
  • Lappartenance à un groupe particulier (Mauvais
    payeurs,)
  • Grandes catégories de méthodes
  • Régression logistique / Probit
  • Analyse discriminante (hyp de normalité)

4
Problématique générale
  • Objectif (régression) Yf(X)
  • Expliquer des choix individuels (Y)
  • À partir de variables explicatives (X)
  • Quelle variable dépendante ?
  • Choix binaire 0,1 modèle logit
  • Achat / non achat
  • Choix multinomial A, B, C modèle logit
    multinomial (MNL)
  • Entre des magasins, marques ou conditionnements
  • Préférences ordonnées modèle logit ordonné
  • B, puis A, puis C
  • Des choix imbriqués logit  niché  (nested)
  • Marque, puis parfum, puis conditionnement

5
Principe le rapport de cote
  • Pour un pari du  10 contre 1 
  • p / (1-p)
  • Il ne se passe pas grand chose aux extrémités
    dune distribution en  S 
  • Même une forte variation de x ne modifie pas la
    probabilité
  • Par contre  au milieu  (proche du point
    dinflexion) une petite variation de x change
    fortement la probabilité
  • Pour obtenir cela on va
  • Rapporter p à (1-p) et non à 100 p/(1-p)
  • Transformer par les logarithmes logp/(1-p)
    (le logit)

6
La valeur dune alternative provient dune
fonction linéaire
  • La fonction est compensatoire
  • avec i individu, j alternative et k
    attribut.
  • Vj Composante déterministe de l utilité qui
    dépend des caractéristiques du produit et du
    fournisseur
  • Xjk valeur de l attribut k de l alternative
    j.
  • wk pondération de lattribut

7
Le choix est fonction dune utilité aléatoire
  • Parce que
  • linformation est imparfaite
  • Ses préférences sont mal connues ou se modifient
  • Les préférences sont variées au sein de la
    population
  • Un consommateur choisit lalternative qui
    maximise son utilité avec un modèle à utilité
    aléatoire
  • avec i individu, j alternative et k
    attribut.
  • Uij Utilité du produit j pour l individu i
  • Vj Composante déterministe de l utilité qui
    dépend des caractéristiques du produit et du
    fournisseur
  • ?ij Terme d erreur représentant la composante
    non-déterministe

8
Implication (hypothèse lourde IIA)
  • Un MNLogit est soumis à une hypothèse
    dindépendance des alternatives non pertinentes
    IIA (Independence of irrelevant alternatives)
  • Le rapport de deux probabilités de choix ne
    dépend pas des autres alternatives
  • Illustration choix entre Taxi et Bus  Bleu 
    60-40. Si on ajoute un Bus  Rouge  que
    devrait-il se passer ?
  • Aux conséquences importantes
  • Une marque  tire  sa part de marché
    supplémentaire de la PdM des concurrents de
    manière proportionnelle à leur PdM (proportional
    draw)
  • Pas de  proximité  concurrentielle des marques
  • Hypothèse simplificatrice très utile mais dont il
    faut tester la validité
  • Analyse des résidus

9
Modèle Logit binaire
  • Le modèle LOGIT suppose que le terme derreur
    (?ij) suit une distribution spécifique (double
    exponentielle)
  • Alors
  • Avec
  • pj probabilité que lindividu choisisse
    l alternative j
  • Vj utilité de lalternative j

10
Implication
  • leffet dune variable explicative nest pas
    constant
  • Une mesure intervalle de lutilité suffit
  • L effet marginal dun attribut est variable
    selon le niveau actuel des attributs
  • Il est maximal quand la probabilité de choix
    sapproche de 0.5

Effet marginal dun attribut sur la probabilité
de choisir une alternative
Probabilité de choix d une alternative
11
Du tableau croisé au Logit
12
Extension du Logit
  • Le modèle Multinomial Logit (MNL) (linkglogit)
  • p1/p4 p2/p4 p3/p4
  • Choix entre plusieurs alternatives
  • Réponse nominale 1 parmi n
  • Estimation de plusieurs fonctions logistiques
    pour séparer les options par rapport à une
    modalité de référence
  • Le modèle Logit ordonné (Ordered logit)
    (linkclogit)
  • p1/(p2p3p4) (p1p2)/(p3p4) (p1p2p3)/p4
  • Permet de traiter des échelles de réponses
    ordinales
  • Une constante est affectée à chaque niveau
  • Hypothèse proportionnalité des rapports de
    chance
  • Effet des variables indépendantes est le même
    quel que soit le niveau de réponse sur la
    variable dépendante (hyp de à tester)

13
Autres modèles selon la distribution choisie pour
les erreurs
  • Le modèle PROBIT suppose que le terme derreur
    suit une loi normale (normit)
  • Son estimation est un peu plus complexe (plus
    longue) et peut limiter le nombre de variables
    explicatives,
  • mais nest pas soumise à lhypothèse IIA
  • Le modèle TOBIT suppose un mélange de deux
    processus imbriqués
  • Lachat ou non (0/1)
  • Pour les acheteurs, le choix entre les
    alternatives (Logit)

14
Mise en oeuvre
  • Même principe que la régression
  • Attention à mettre 1 pour lévénement que lon
    veut prédire (par défaut cest  0 )
  • Mais estimation par le maximum de vraisemblance
    (et non MCO) ( problème de convergence en cas de
    séparation parfaite)

15
Qualité globale
  • La déviance maximale correspond à la qualité de
    lajustement avec une constante seulement (sans
    variables indépendantes) (-2 Log L)
  • Ajustement global
  • Test du ratio du Log de vraisemblance (LR)
  • Rapport de 2 Log L / Déviance avec les degrés de
    liberté
  • même interprétation quun  F global  en
    régression
  • pseudo R2 ou R2 de Mac Fadden
  • de variation de la vraisemblance par rapport à
    un modèle sans variables explicatives
  • Test d'adéquation d'Hosmer et de Lemeshow
  • équivalent du Khi2 sur les données groupées
    selon la probabilité prévue). H0 le modèle est
    bien adapté aux données.
  • Ne permet pas de détecter certaines hypothèses
    (non linéarité). Prendre plus de 5 groupes.
  • Matrice de confusion (prédit x réel)

16
Signification de chaque variable
  • Signification des coefficients
  • statistique de Wald carré des t de student
    (suit une loi du Khi2)
  • Interprétation du coefficient
  • lexponentielle du coefficient indique de combien
    varie le rapport de cote pour une variation
    unitaire de la variable
  • gt0 accroît la probabilité, lt0 réduit la
    probabilité
  • 100exp(b)-1 correspond à laccroissement de la
    probabilité de réalisation de lévénement

17
SAS LOGIT
  • data in
  • input sexe age type count _at__at_
  • if type"A" then Y1 else Y0
  • cards
  • G E A 20 G A A 100
  • G E B 130 G A B 190
  • G E C 130 G A C 30
  • F E A 230 F A A 60
  • F E B 30 F A B 140
  • F E C 80 F A C 160
  • Proc logistic datain
  • freq count
  • class sexe(ref'G') age (ref'E') / paramref
  • model Y (ref"1") sexe age / linklogit
  • output outdata_out predprobsI

18
Interprétation
  • Le critère de vraisemblance (-2LogL) doit être le
    plus petit possible
  • On teste lapport du modèle par rapport à un
    modèle nul (sans variable) avec le  likelihood
    ratio test 
  • H0 le modèle napporte rien de plus
  • ici Problt.0001 rejet de H0 gt lapport du modèle
    est significatif

19
Interprétation (suite)
  • Tous les coefficients sont significatifs
  • Khi2 de wald
  • Mais leffet est plus fort pour
  • Le sexe être une fille multiplie par 0.34 la
    probabilité de préférer  A 
  • Lage être un adulte multiplie par 2.25 la
    probabilité de préférer  A 

20
SAS PROBIT
  • model Y (ref"1") sexe age / linkprobit
  • Un peu moins bon que le logit
  • Mais des résultats très proches

21
Exemple Logistique multinomial
  • model Type (ref'A') sexe age / linkglogit
  • Les fonctions se construisent à partir dune
    option de référence
  • Ref
  • Ln(P/P_ref) b0 b1. X1 b2.X2
  • Pi exp(bXi)/S exp(bX) et P_réf 1/S exp(bX) 1
    S Pi

22
Utilisation du modèle
  • A partir dun score seuil  S , le modèle permet
    de classer selon le groupe prévu
  • Si score(i) gtS alors i appartient au groupe
     positif 
  • Mais plus on cherche à bien classer les
     positifs  plus on y ajoute de  faux
    positifs  (prévu positif, mais négatif)
  • La qualité de laffectation est déterminée par 2
    indicateurs
  • Sensibilité (a)
  • Spécificité (b)
  • On cherche S tel quil
  • Maximise (a) (vrais positifs)
  • Minimise (1-b) (faux positifs)

23
Courbe de LIFT
  • Abscisses fréquence des scores ( du fichier)
  • Ordonnées sensibilité (a) la fréquence des
    individus ayant la modalité de référence
  • En prenant 30 du fichier on a 50 des répondants
  • Le  lift  est le rapport 50/30 1.66
  • On utilise laire sous la courbe (AUL)

24
Courbe ROC (receiver operating characteristic)
  • Abscisses (1- spécificité) (1-b)
  • Ordonnées sensibilité a
  • Si on sélectionne ceux qui ont un score gt à S,
    on trouve
  • 50 des positifs / 25 de faux positifs
  • Laire sous la courbe permet de comparer les
    modèles
  • AUC  c statistic  dans la table
     prévu-réel  ou dans le graphique ROC
  • KS peut aussi être utilisé mais étudie toute
    différence entre les distributions (forme et
    écart) alors que Wilcoxon se concentre sur
    lécart (shift).
  • Équivalent au test de wilcoxon

idéal
S
hasard
25
Utilisation du MNLdans les études de segmentation
  • Idée fondamentale segmenter la base des
    acheteurs selon la probabilité de choix de la
    marque
  • Fidèles à la marque
  • Fidèles au concurrent
  • Volages à gagner à perdre
  • Modélisation des préférences individuelles
    (Guadagni et Little)
  • Introduction dune variable de fidélité (marque,
    conditionnement)
  • Fidel(t) (1-a).Fidel(t-1) a.Choix (quel
    lissage ?)
  • Mais attention à la relation avec les variables
    explicatives
  • Difficulté dinitialisation
  • Durée et forme de linitialisation
  • conséquence sur la composition de léchantillon

26
ANALYSE DISCRIMINANTE
  • Objectif
  • Trouver une combinaison linéaire de variables
    indépendantes
  • Permettant de séparer au mieux lappartenance à
    deux groupes
  • Objectif pratique
  • Décrire les groupes à partir des variables
  • Classification-prédiction des individus
  • Utilisation
  • Pour lappartenance à un découpage connu achat/
    non achat
  • A la suite dune typologie pour construire une
    fonction daffectation une reprenant que les
    variables les plus pertinentes pour séparer des
    groupes  créés 

27
Conditions dutilisation de lanalyse
discriminante
  • En analyse discriminante, la relation Y f(X)
    est LINEAIRE
  • Lanalyse discriminante est assez exigeante en ce
    qui concerne les conditions théoriques
  • Normalité (multi-normalité) des distributions des
    variables explicatives
  • Tests des moments (symétrie, aplatissement)
  • Test de forme (K-S)
  • Egalité des matrices de Variance-Covariance
  • Test de Box, de Bartlett
  • Absence de multicolinéarité entre les variables
    explicatives
  • Analyse factorielle
  • Conditions empiriques
  • Effectifs effectif du plus petit groupe gt 5 le
    nombre de variables
  • En général nest pas recommandée pour les petits
    échantillons
  • Attention lAD doit faire beaucoup mieux que le
    hasard !

28
Résultats
  • Des fonctions discriminantes linéaires permettant
    de séparer au moins deux groupes
  • Zj a1.X1 a2.X2 a3.X3 (ai poids
    discriminants)
  • Il y a min(Nb var, Nb groupes-1) fonctions
  • Qui apparaissent dans un ordre décroissant
    dimportance des valeurs propres (idem analyse
    factorielle)
  • Test
  • Significativité globale de la fonction (H0 la
    fonction napporte rien)
  • (U ou ) Lambda de Wilks (Within / Total), à
    minimiser
  • Pillaï de Bartlett (Between / Total)
  • T² de Hotelling (2 groupes seulement)
  • Plus la valeur est élevée plus la fonction
    apporte quelque chose
  • Suivent une loi du Khi2
  • Degrés de liberté pour (p-k)(g-k-1) p nb
    variables explicatives, k nb de fonctions
    discriminantes déjà extraites, g nb de groupes

29
Qualité de la discrimination
  • Pouvoir discriminant
  • Relatif valeur propre / somme des VP li
    li/S l
  • Absolu de la variance expliquée par la
    fonction
  • w² pouvoir discriminant total
  • PDA li w²
  • Matrice de confusion (prédit x réel)
  • A comparer par rapport au hasard
  • Comparer la performance (validation externe)
  • En comparant la qualité prédictive sur un
    échantillon non utilisé dans lanalyse
  • Split half (éch destimation éch de validation)
  • Jack-knife (n-1, 1)
  • Sur différents échantillons artificiels tirés au
    hasard
  • Bootstrap

30
Variantes
  • Analyse discriminante canonique (CANDISC) ou de
    Fischer
  • Recherche des fonctions qui séparent au mieux les
    centres de classe
  • (g-1) fonctions si g groupes
  • Analyse discriminante générale (DISCRIM) ou
    probabiliste
  • Une fonction par groupe déterminant la similarité
    avec le centre du groupe
  • Les scores peuvent être utilisés pour faire des
    probabilité daffectation à un groupe
  • Options linéaire, quadratique, non paramétrique
    (option pool)
  • Linéaire même matrice de var-covar (poolyes)
  • Quadratique matrice de var-covar spécifique à
    chaque groupe (No)
  • Possibilité de tester sur une autre base, faire
    de la cross-validation
  • Analyse discriminante stepwise (STEPDISC)
  • Pour pré-sélectionner progressivement les
    variables les plus pertinentes
  • Discriminante sur variables qualitatives DISQUAL
    (Saporta, 1977)
  • Faire dabord une analyse factorielle des
    correspondances multiples
  • (proc corresp)
  • sur les indicatrices des modalités (moins une) de
    chaque variable
  • Éventuellement discrétiser les variables
    continues par quantile
  • en essayant de maintenir le même nombre de
    modalités par variable
  • Puis une Analyse Discriminante Linéaire sur les
    facteurs

31
Application STEPDISC
  • proc stepdisc dataech_test
  • class achat
  • var sex catotal

32
Application CANDISC
  • proc candisc dataech_test outdiscrim_out
  • class achat
  • var sex catotal

33
Application DISCRIM
  • proc discrim
  • dataech_test
  • methodnormal
  • pooltest Wcov / YES si normal NO si non
    normal TEST si à tester /
  • crossvalidate
  • outdiscrim_results
  • outstatdata_calib
  • priors prop
  • class achat
  • var sex catotal
Write a Comment
User Comments (0)
About PowerShow.com