Title: Prdictions par Imputation
1Prédictions par Imputation
- Rencontres des Jeunes Statisticiens
- Aussois, Septembre, 2007
- Sébastien Markley, Toulouse
2Introduction
- Thèse CIFRE
- Financement de doctorat en partenariat entre
entreprises privés et laboratoires académiques - Encadrants
- Hervé Tranger Institut BVA
- Jean-Philippe Lesne -Institut BVA
- Anne Ruiz-Gazen -GREMAQ
- Michel Simioni -INRA
3Objectifs
- Prédire les choix de magasins des ménages
français, les fréquences des visites, et les
produits achetés dans ces magasins - 3 Choix de magasins
- 5 Fréquences
- 6 Produits
- Fréquences et produits conditionnés sur choix de
magasins
4Les Données
- Enquête sur flux dachats en Région Centre
- 3 premiers choix de magasins de grande surface
- Magasins et domiciles sont géocodés
- Nombre de visites par semaines
- Types de produits achetés
5Prédiction du choix de magasin
- Logit Conditionnel
- Effets spatiaux
- Définition des ensembles de choix
- Critères dévaluation des prédictions
- Log-vraisemblance
- Mesures de qualité de prédictions de flux moyens
6Catégories de Produits
- Pains/Pâtisseries
- Fruits/Légumes
- Charcuteries/Viandes/Volailles
- Crustacés/Poissons
- Produits Surgelés
- Epiceries/Crèmeries/Autres Produits
Alimentaires/Produits dEntretien
7Formes de Ventes
- Supermarchés
- 300-1500 m2
- Hypermarchés
- 1500-8000 m2
- Hard Discounts
- 300-800 m2
- Grands Hypermarchés
- 8000 m2
8Ordre et Produits
Pourcentage des ménages choisissant chaque
produit parmi ceux qui visitent un magasin de
grande surface
Plus de types de produits sont choisis en 1er
choix quen 2ème et 3ème choix
9FV et Produits
Pourcentage des ménages choisissant chaque
produit parmi ceux qui visitent un magasin de
grande surface
- Peu de différence entre HM et XM
- SM très proche à HM et XM a part PainPat,
Surgeles et CrstPoi - HD différent
10Continuité des comportements
Plus de probabilité de choisir le produit si le
ménage lachète dans un autre magasin
11Corrélations entre produits pour le premier choix
12Corrélations entre produits pour le deuxième
choix
13Corrélations entre produits pour le troisième
choix
14Les choix de produits les plus courants, par
ordre du choix de magasin
(PainPatFrtsLegChViaVolCrstPoiSurgelesEpCrAuP
e)
15Les choix de produits les plus courants, par
formes de ventes du magasin
(PainPatFrtsLegChViaVolCrstPoiSurgelesEpCrAuP
e)
16Méthode style imputation
- Deux échantillons
- Echantillon donneur
- (choix de produits connus)
- Echantillon receveur
- (choix de produits inconnus)
17Méthode style imputation
- En imputant les choix des produits non
renseignés, nous fournissons des prédictions des
choix de produits. - Remarques
- Observations imputées et non-imputées ne sont pas
forcément issues de la même population. - Le nombre de valeurs manquantes peut être
beaucoup plus grand que le nombre de valeurs
renseignées
18Techniques dimputation
- Par classes dimputation
- Définition des classes dimputation basées sur
des variables connues pour tous les individus
donneurs et receveurs . - Pour imputer les choix des produits dun individu
non-renseigné, nous tirons au sort un individu
donneur de la même classe dimputation. Les
choix de produits imputés correspondent aux choix
de produits de cet individu.
19Techniques dimputation
- Par plus proche voisin
- Nous choisissons des variables qui sont connues
pour les individus donneurs et receveurs .
- Les choix de produits imputés à un individu
correspondent aux choix de produits observés pour
lindividu donneur qui ressemble le plus
à lindividu en question (distance basée sur les
variables connues).
20Imputation par classes dimputations
21Imputation par plus proche voisin
22Remarques
- Les individus font trois choix de magasins. Nous
pouvons - utiliser trois individus différents pour imputer
les choix de produits pour les trois magasins - Classes dimputations basées sur des
caractéristiques plus précises des magasins. - utiliser le même individu pour imputer les choix
de produits pour les trois magasins - Préserve les continuités de comportements
23Résultats des imputations par classe(Donneur et
receveur Région Centre)
Région Centre 12573 Ménages
24Résultats des imputations par classe(Receveur
Indre Donneur Indre-et-Loir)
Département Indre 3968 Ménages Département
Indre-et-Loire 1473
25Remarques
- Avec les classes dimputations, un trop grand
nombre de variables explicatives peut créer des
classes qui sont vides ou qui contiennent trop
peu deffectifs pour permettre limputation. - Lélimination de certaines variables, où
lagrégation de quelques classes risque de
biaiser les imputations.
26La technique du plus proche voisin
- La technique des plus proches voisins est conçue
quand on utilise des variables explicatives qui
sont continues. - Cette technique ne pose pas de limite sur le
nombre de variables explicatives utilisées dans
limputation - Nous utilisons les probabilités prédites de
choisir chaque magasin dans le voisinage de
lindividu pour faire limputation par plus
proche voisin
27Résultats des imputations par PPV (Receveur
Indre Donneur Indre-et-Loir)
Département Indre 3968 Ménages Département
Indre-et-Loire 1473
28Remarques
- La précision des prédictions dépendront de la
qualité de la prédiction des choix de magasin. - Nous devons éviter la formation de classes
dimputation qui ont trop peu de donneurs - Les variables sociodémographiques ne jouent pas
un rôle important dans les comportements dachats
29Remerciement
- Je tiens à remercier Anne Ruiz-Gazen et Michel
Simioni pour leur aide et leurs commentaires
30Référence
- Haziza, D. (2005), Inférence en présence
dimputation simple dans les enquêtes un survol,
Journal de la Société Française de Statistique,
146, 69-118