Title:
1Échantillonnage (STT-2000)
- Section 5
- Types derreur de sondage.
Version 22 août 2003
2Non-réponse
- Problème survenant dans plusieurs sondages.
- Peut varier considérablement dans le temps, même
pour un même sondage effectué à plusieurs
reprises dans le temps. - Pour la contrôler entraînement des interviewers,
déroulement de lentrevue (longueur de
lentrevue, choix et formulation des questions,
etc.)
3Exemples de non-réponse
- Incapacité de contacter un individu, un ménage,
ou de manière générale une unité. - La personne peut décider de ne pas répondre
refus catégorique incompréhension (langue,
analphabétisme) - Idéalement, linterviewer tente dobtenir de
linformation démographique sur le non-répondant
(âge?, sexe?, ethnie?, lieu de résidence
rural/urbain?)
4Effets de la non-réponse
- Biais potentiel dans les estimateurs des
paramètres de la population. - La non-réponse est particulièrement grave car la
volonté de réponse est souvent liée à la variable
dintérêt y.
5Facteurs principaux font que le biais est petit
- Moyenne chez les non-répondants est similaire Ã
la moyenne chez les répondants. - Taux de non-réponse est raisonnablement petit.
(Pour EPA enquête population active, taux de
non-réponse est denviron 7 5 et moins est
 acceptable .)
6Formalisation de la non-réponse
- Contexte On sélectionne s dans U avec
probabilité p(s), avec pk gt 0 et pkl gt 0. - Après la collecte des données, yk est disponible
seulement pour les unités pour - et
- Dans une telle situation, nous sommes en présence
de données manquantes ou de la non-réponse.
7Exemple
Réponse aux deux questions.
Échantillon s
Réponse à une question mais pas aux deux.
(non-réponse par item)
Non-réponse aux deux questions. (non-réponse par
unité)
Non-échantillonné, partie U-s
8Illustration du problème de biais Enquête sur le
revenu, où tous les hauts revenus ont une
probabilité de répondre plus faible.
- Ceci implique une sous-représentativité des hauts
revenus dans . - Si tirage SI (n parmi N)
- Si on considère comme estimateur
- où m est le nb de répondants
9Techniques pour contrôler le problème de la
non-réponse
- Sous-échantillonnage des répondants.
- Techniques de réponses randomisées.
- Techniques basées sur la modélisation de la
non-réponse. - Imputation.
10Imputation on pose des valeurs plausibles pour
les valeurs manquantes
- On connaît
- On impute
- On obtient ainsi un ensemble de données
complétées
11Autre exemples dimputation
- Hot Deck On choisit au hasard une valeur déjÃ
obtenue pour remplir les trous. - Cold Deck Utilisation de données provenant de
sources externes. - Imputation par la moyenne Chacun des trous est
remplacé par la valeur moyenne des répondants. - Imputation utilisant des modèles par le ratio,
par la régression, etc.
12Repondération comme une méthode dajustement pour
la non-réponse
- On accepte la non-réponse.
- On ne tente pas dimputer.
- Cependant, on cherche à redresser léchantillon
de répondants. - On a besoin cependant dinformation auxiliaire,
permettant un découpage en catégories (exemple
âge, sexe)
13Repondération
- On identifie G groupes, g 1,2,,G.
- Léchantillon s est découpé en s1, s2, , sG.
- Ainsi, ceci implique que léchantillon des
répondants r est découpé en r1, r2, , rG. - Pour , on doit donc pouvoir observer
les caractéristiques qui définissent le
regroupement.
14Repondération (suite)
- Pour le groupe g, soit mg/ng le taux de réponse,
où mg taille de rg, et ng taille de sg. - Par repondération, on veut dire que le poids
déchantillonnage 1/pk (poids sans non-réponse)
est remplacé (ou redressé) par la valeur
(ng/mg)(1/pk) (avec non-réponse).
15Intuition derrière la méthode de redressement
(plan SI)
- 1/pk N/n.
- On note que .
- Cependant
. - On cherche q tel que
16Estimateur par repondération
- Estimateur
- Pour le plan SI
17Justification de lestimateur par repondération
- Pour s
- Pour r, on pose
- Dans le cas de lestimateur par repondération par
groupes, on suppose - Lestimateur est
18Justification (suite)
- Sous les hypothèse suivantes Pour chaque unité
k dans le groupe g, les unités répondent avec
probabilité qg indépendamment (plan BE étant
donné s). - Lestimateur précédent est alors sans biais sous
ce mécanisme de réponse. - Puisque qg est inconnu, on lestime par
19Exemple, T.P. 9, no.5
20Solution
- Estimateur
- On pose
- On obtient
- Estimateur repondéré
- Moyenne des répondants
21Solution (suite et fin)
- Lestimateur repondéré est mieux que la moyenne
des répondants dans la mesure où lestimateur
repondéré tient compte des différences quil y a
entre les groupes en rapport avec la volonté de
répondre. - Dans lexemple, les hommes répondaient moins que
les femmes.