Prdictions par Imputation

1 / 30
About This Presentation
Title:

Prdictions par Imputation

Description:

Herv Tranger Institut BVA. Jean-Philippe Lesne -Institut BVA. Anne Ruiz-Gazen -GREMAQ ... Pr dire les choix de magasins des m nages fran ais, les fr quences des visites, et les ... – PowerPoint PPT presentation

Number of Views:496
Avg rating:3.0/5.0
Slides: 31
Provided by: Sbas7

less

Transcript and Presenter's Notes

Title: Prdictions par Imputation


1
Prédictions par Imputation
  • Rencontres des Jeunes Statisticiens
  • Aussois, Septembre, 2007
  • Sébastien Markley, Toulouse

2
Introduction
  • Thèse CIFRE
  • Financement de doctorat en partenariat entre
    entreprises privés et laboratoires académiques
  • Encadrants
  • Hervé Tranger Institut BVA
  • Jean-Philippe Lesne -Institut BVA
  • Anne Ruiz-Gazen -GREMAQ
  • Michel Simioni -INRA

3
Objectifs
  • Prédire les choix de magasins des ménages
    français, les fréquences des visites, et les
    produits achetés dans ces magasins
  • 3 Choix de magasins
  • 5 Fréquences
  • 6 Produits
  • Fréquences et produits conditionnés sur choix de
    magasins

4
Les Données
  • Enquête sur flux dachats en Région Centre
  • 3 premiers choix de magasins de grande surface
  • Magasins et domiciles sont géocodés
  • Nombre de visites par semaines
  • Types de produits achetés

5
Prédiction du choix de magasin
  • Logit Conditionnel
  • Effets spatiaux
  • Définition des ensembles de choix
  • Critères dévaluation des prédictions
  • Log-vraisemblance
  • Mesures de qualité de prédictions de flux moyens

6
Catégories de Produits
  • Pains/Pâtisseries
  • Fruits/Légumes
  • Charcuteries/Viandes/Volailles
  • Crustacés/Poissons
  • Produits Surgelés
  • Epiceries/Crèmeries/Autres Produits
    Alimentaires/Produits dEntretien

7
Formes de Ventes
  • Supermarchés
  • 300-1500 m2
  • Hypermarchés
  • 1500-8000 m2
  • Hard Discounts
  • 300-800 m2
  • Grands Hypermarchés
  • 8000 m2

8
Ordre et Produits
Pourcentage des ménages choisissant chaque
produit parmi ceux qui visitent un magasin de
grande surface
Plus de types de produits sont choisis en 1er
choix quen 2ème et 3ème choix
9
FV et Produits
Pourcentage des ménages choisissant chaque
produit parmi ceux qui visitent un magasin de
grande surface
  • Peu de différence entre HM et XM
  • SM très proche à HM et XM a part PainPat,
    Surgeles et CrstPoi
  • HD différent

10
Continuité des comportements
Plus de probabilité de choisir le produit si le
ménage lachète dans un autre magasin
11
Corrélations entre produits pour le premier choix
12
Corrélations entre produits pour le deuxième
choix
13
Corrélations entre produits pour le troisième
choix
14
Les choix de produits les plus courants, par
ordre du choix de magasin
(PainPatFrtsLegChViaVolCrstPoiSurgelesEpCrAuP
e)
15
Les choix de produits les plus courants, par
formes de ventes du magasin
(PainPatFrtsLegChViaVolCrstPoiSurgelesEpCrAuP
e)
16
Méthode  style imputation 
  • Deux échantillons
  • Echantillon  donneur  
  • (choix de produits connus)
  • Echantillon  receveur 
  • (choix de produits inconnus)

17
Méthode  style imputation 
  • En imputant les choix des produits non
    renseignés, nous fournissons des prédictions des
    choix de produits.
  • Remarques
  • Observations imputées et non-imputées ne sont pas
    forcément issues de la même population.
  • Le nombre de valeurs manquantes peut être
    beaucoup plus grand que le nombre de valeurs
    renseignées

18
Techniques dimputation
  • Par classes dimputation
  • Définition des classes dimputation basées sur
    des variables connues pour tous les individus
     donneurs  et  receveurs .
  • Pour imputer les choix des produits dun individu
    non-renseigné, nous tirons au sort un individu
     donneur  de la même classe dimputation. Les
    choix de produits imputés correspondent aux choix
    de produits de cet individu.

19
Techniques dimputation
  • Par plus proche voisin
  • Nous choisissons des variables qui sont connues
    pour les individus  donneurs  et  receveurs .
  • Les choix de produits imputés à un individu
    correspondent aux choix de produits observés pour
    lindividu  donneur  qui  ressemble  le plus
    à lindividu en question (distance basée sur les
    variables connues).

20
Imputation par classes dimputations
21
Imputation par plus proche voisin
22
Remarques
  • Les individus font trois choix de magasins. Nous
    pouvons
  • utiliser trois individus différents pour imputer
    les choix de produits pour les trois magasins
  • Classes dimputations basées sur des
    caractéristiques plus précises des magasins.
  • utiliser le même individu pour imputer les choix
    de produits pour les trois magasins
  • Préserve les continuités de comportements

23
Résultats des imputations par classe(Donneur et
receveur Région Centre)
Région Centre 12573 Ménages
24
Résultats des imputations par classe(Receveur
Indre Donneur Indre-et-Loir)
Département Indre 3968 Ménages Département
Indre-et-Loire 1473
25
Remarques
  • Avec les classes dimputations, un trop grand
    nombre de variables explicatives peut créer des
    classes qui sont vides ou qui contiennent trop
    peu deffectifs pour permettre limputation.
  • Lélimination de certaines variables, où
    lagrégation de quelques classes risque de
    biaiser les imputations.

26
La technique du plus proche voisin
  • La technique des plus proches voisins est conçue
    quand on utilise des variables explicatives qui
    sont continues.
  • Cette technique ne pose pas de limite sur le
    nombre de variables explicatives utilisées dans
    limputation
  • Nous utilisons les probabilités prédites de
    choisir chaque magasin dans le  voisinage  de
    lindividu pour faire limputation par plus
    proche voisin

27
Résultats des imputations par PPV (Receveur
Indre Donneur Indre-et-Loir)
Département Indre 3968 Ménages Département
Indre-et-Loire 1473
28
Remarques
  • La précision des prédictions dépendront de la
    qualité de la prédiction des choix de magasin.
  • Nous devons éviter la formation de classes
    dimputation qui ont trop peu de donneurs
  • Les variables sociodémographiques ne jouent pas
    un rôle important dans les comportements dachats

29
Remerciement
  • Je tiens à remercier Anne Ruiz-Gazen et Michel
    Simioni pour leur aide et leurs commentaires

30
Référence
  • Haziza, D. (2005), Inférence en présence
    dimputation simple dans les enquêtes un survol,
    Journal de la Société Française de Statistique,
    146, 69-118
Write a Comment
User Comments (0)