- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

Pour la contr ler: entra nement des interviewers, d roulement de ... On accepte la non-r ponse. On ne tente pas d'imputer. Cependant, on cherche redresser ... – PowerPoint PPT presentation

Number of Views:24
Avg rating:3.0/5.0
Slides: 22
Provided by: pierred3
Category:
Tags: accepte

less

Transcript and Presenter's Notes

Title:


1
Échantillonnage (STT-2000)
  • Section 5
  • Types derreur de sondage.

Version 22 août 2003
2
Non-réponse
  • Problème survenant dans plusieurs sondages.
  • Peut varier considérablement dans le temps, même
    pour un même sondage effectué à plusieurs
    reprises dans le temps.
  • Pour la contrôler entraînement des interviewers,
    déroulement de lentrevue (longueur de
    lentrevue, choix et formulation des questions,
    etc.)

3
Exemples de non-réponse
  • Incapacité de contacter un individu, un ménage,
    ou de manière générale une unité.
  • La personne peut décider de ne pas répondre
    refus catégorique incompréhension (langue,
    analphabétisme)
  • Idéalement, linterviewer tente dobtenir de
    linformation démographique sur le non-répondant
    (âge?, sexe?, ethnie?, lieu de résidence
    rural/urbain?)

4
Effets de la non-réponse
  • Biais potentiel dans les estimateurs des
    paramètres de la population.
  • La non-réponse est particulièrement grave car la
    volonté de réponse est souvent liée à la variable
    dintérêt y.

5
Facteurs principaux font que le biais est petit
  • Moyenne chez les non-répondants est similaire à
    la moyenne chez les répondants.
  • Taux de non-réponse est raisonnablement petit.
    (Pour EPA enquête population active, taux de
    non-réponse est denviron 7 5 et moins est
     acceptable .)

6
Formalisation de la non-réponse
  • Contexte On sélectionne s dans U avec
    probabilité p(s), avec pk gt 0 et pkl gt 0.
  • Après la collecte des données, yk est disponible
    seulement pour les unités pour
  • et
  • Dans une telle situation, nous sommes en présence
    de données manquantes ou de la non-réponse.

7
Exemple
Réponse aux deux questions.
Échantillon s
Réponse à une question mais pas aux deux.
(non-réponse par item)
Non-réponse aux deux questions. (non-réponse par
unité)
Non-échantillonné, partie U-s
8
Illustration du problème de biais Enquête sur le
revenu, où tous les hauts revenus ont une
probabilité de répondre plus faible.
  • Ceci implique une sous-représentativité des hauts
    revenus dans .
  • Si tirage SI (n parmi N)
  • Si on considère comme estimateur
  • où m est le nb de répondants

9
Techniques pour contrôler le problème de la
non-réponse
  • Sous-échantillonnage des répondants.
  • Techniques de réponses randomisées.
  • Techniques basées sur la modélisation de la
    non-réponse.
  • Imputation.

10
Imputation on pose des valeurs plausibles pour
les valeurs manquantes
  • On connaît
  • On impute
  • On obtient ainsi un ensemble de données
    complétées

11
Autre exemples dimputation
  • Hot Deck On choisit au hasard une valeur déjà
    obtenue pour remplir les trous.
  • Cold Deck Utilisation de données provenant de
    sources externes.
  • Imputation par la moyenne Chacun des trous est
    remplacé par la valeur moyenne des répondants.
  • Imputation utilisant des modèles par le ratio,
    par la régression, etc.

12
Repondération comme une méthode dajustement pour
la non-réponse
  • On accepte la non-réponse.
  • On ne tente pas dimputer.
  • Cependant, on cherche à redresser léchantillon
    de répondants.
  • On a besoin cependant dinformation auxiliaire,
    permettant un découpage en catégories (exemple
    âge, sexe)

13
Repondération
  • On identifie G groupes, g 1,2,,G.
  • Léchantillon s est découpé en s1, s2, , sG.
  • Ainsi, ceci implique que léchantillon des
    répondants r est découpé en r1, r2, , rG.
  • Pour , on doit donc pouvoir observer
    les caractéristiques qui définissent le
    regroupement.

14
Repondération (suite)
  • Pour le groupe g, soit mg/ng le taux de réponse,
    où mg taille de rg, et ng taille de sg.
  • Par repondération, on veut dire que le poids
    déchantillonnage 1/pk (poids sans non-réponse)
    est remplacé (ou redressé) par la valeur
    (ng/mg)(1/pk) (avec non-réponse).

15
Intuition derrière la méthode de redressement
(plan SI)
  • 1/pk N/n.
  • On note que .
  • Cependant
    .
  • On cherche q tel que

16
Estimateur par repondération
  • Estimateur
  • Pour le plan SI

17
Justification de lestimateur par repondération
  • Pour s
  • Pour r, on pose
  • Dans le cas de lestimateur par repondération par
    groupes, on suppose
  • Lestimateur est

18
Justification (suite)
  • Sous les hypothèse suivantes Pour chaque unité
    k dans le groupe g, les unités répondent avec
    probabilité qg indépendamment (plan BE étant
    donné s).
  • Lestimateur précédent est alors sans biais sous
    ce mécanisme de réponse.
  • Puisque qg est inconnu, on lestime par

19
Exemple, T.P. 9, no.5
20
Solution
  • Estimateur
  • On pose
  • On obtient
  • Estimateur repondéré
  • Moyenne des répondants

21
Solution (suite et fin)
  • Lestimateur repondéré est mieux que la moyenne
    des répondants dans la mesure où lestimateur
    repondéré tient compte des différences quil y a
    entre les groupes en rapport avec la volonté de
    répondre.
  • Dans lexemple, les hommes répondaient moins que
    les femmes.
Write a Comment
User Comments (0)
About PowerShow.com