Title: Th
1Théorie de léchantillonnage (STT-6005)
- Problème de la non-réponse
- (SSW, Chapitre 15)
Version 10 mars 2004
2Non-réponse
- Problème survenant dans plusieurs sondages.
- Peut varier considérablement dans le temps, même
pour un même sondage effectué à plusieurs
reprises dans le temps. - Pour la contrôler entraînement des interviewers,
déroulement de lentrevue (longueur de
lentrevue, choix et formulation des questions,
etc.)
3Exemples de non-réponse
- Incapacité de contacter un individu, un ménage,
ou de manière générale une unité. - La personne peut décider de ne pas répondre
refus catégorique incompréhension (langue,
analphabétisme) - Idéalement, linterviewer tente dobtenir de
linformation démographique sur le non-répondant
(âge?, sexe?, ethnie?, lieu de résidence
rural/urbain?)
4Effets de la non-réponse
- Biais potentiel dans les estimateurs des
paramètres de la population. - La non-réponse est particulièrement grave car la
volonté de réponse est souvent liée à la variable
dintérêt y.
5Facteurs principaux qui font que le biais est
petit
- Moyenne chez les non-répondants est similaire à
la moyenne chez les répondants. - Taux de non-réponse est raisonnablement petit.
(Pour EPA enquête population active, taux de
non-réponse est denviron 7 5 et moins est
acceptable .)
6Taux de non-réponse en pratique
- Enquête de la population active autour de 10.
- Moins de 10 est bon en général.
- Souvent 30 et plus.
- Mesure de non-réponse si plus de deux variables?
7Exemple
Réponse aux deux questions.
Échantillon s
Réponse à une question mais pas aux deux.
(non-réponse par item)
Non-réponse aux deux questions. (non-réponse par
unité)
Non-échantillonné, partie U-s
8Formalisation de la non-réponse pour une variable
y
- Contexte On sélectionne s dans U avec
probabilité p(s), avec pk gt 0 et pkl gt 0. - Après la collecte des données, yk est disponible
seulement pour les unités pour - et
- Dans une telle situation, nous sommes en présence
de données manquantes ou de la non-réponse.
9Illustration du problème de biais Enquête sur le
revenu, où tous les hauts revenus ont une
probabilité de répondre plus faible.
- Ceci implique une sous-représentativité des hauts
revenus dans . - Si tirage SI (n parmi N)
- Si on considère comme estimateur
- où m est le nb de répondants
10Techniques pour contrôler le problème de la
non-réponse
- Sous-échantillonnage des non-répondants.
- Techniques de réponses randomisées.
- Techniques basées sur la modélisation de la
non-réponse. - Imputation.
- Substitution de dossiers analogues (qui partagent
certaines caractérisques avec les unités
non-répondantes). - Technique de redressement. On remplace 1/pk par
autre chose.
11Imputation on pose des valeurs plausibles pour
les valeurs manquantes
- On connaît
- On impute
- On obtient ainsi un ensemble de données
complétées
12Autre exemples dimputation
- Hot Deck On choisit au hasard une valeur déjà
obtenue pour remplir les trous. - Cold Deck Utilisation de données provenant de
sources externes. - Imputation par la moyenne Chacun des trous est
remplacé par la valeur moyenne des répondants. - Imputation utilisant des modèles par le ratio,
par la régression, etc.
13Repondération comme une méthode dajustement pour
la non-réponse
- On accepte la non-réponse.
- On ne tente pas dimputer.
- Cependant, on cherche à redresser léchantillon
de répondants. - On a besoin cependant dinformation auxiliaire,
permettant un découpage en catégories (exemple
âge, sexe)
14Mécanisme de réponse
- Permet de modéliser la non-réponse.
- On considère un échantillon s choisi dans U selon
un plan p avec les pk et pkl usuels. - Léchantillon des répondants r est pris dans s
selon un mécanisme de réponse inconnu. - Cette façon daborder le problème est une
application directe de la théorie
déchantillonnage en 2 phases.