Title: 1. Overview
1Controle-correction des données Introduction
2Objectifs de la session
le correction-controle (editing) est la
procédure pour détecter et corriger des erreurs
dans les données l'Imputation est la
procédure qui consiste à assigner des valeurs à
des données manquantes ou incohérentes l'objecti
f de la session est de présenter une vue
d'ensemble des concepts et définitions, et d'en
discuter l'application et les problèmes
3Plan
- Types d'erreurs dans le processus de recensement
- Objectifs de la phase de controle-correction
- Comment et pourquoi corriger? exemples
illustratifs - Principes du controle-correction comment mettre
en oeuvre - Types de controles
- Micro-controle vs Macro-controle
- Controle manuel vs automatique
- Impact du mode de saisie
- Risques du sur-controle-correction
- Autres considerations
4Types d'erreurs dans le processus de recensement
- Erreurs de couverture
- cartes des ZR Incompletes/imprecises
- enumeration Incomplete de toutes les unites
- doubles comptes
- Omission de personnes ne desirant pas etre
recensees - traitement errone des visiteurs ou des etrangers
non-residents - (speciallement en relation avec la methode de
jure versus de facto) - perte ou destruction d'enregistements apres
enumeration -
5Types d'erreurs dans le processus de recensement
- Erreurs de contenu
- Erreurs dans le questionnaire
- Erreurs de l'agent recenseur
- Erreurs des repondants
- Erreurs de codage
- Erreurs de saisie
- Erreurs dans les programmes de controle-correction
- Erreurs de tabulation
6Types d'erreurs dans le processus de recensement
- Deux types d'erreurs pendant l'exploitation
- Celles qui bloquent la suite de l'exploitation
- Celles qui produisent des resultats invalides/
incoherents sans interrompre la suite de
l'exploitation - TOUTES les erreurs du premier type doivent etre
corrigees et le plus possible d'erreurs du second
type
7Objectifs des controles-corrections
- Objectifs (Granquist, 1984)
- Nettoyer les donnees pour faciliter l'analyse
(creation du fichier complet) - Identifier les types et les sources d'erreurs
(pour l'analyse de la qualite des donnees) - Ameliorer la qualite des donnees du recensement
(pour l'actuel et lle futur) - Important non seulement de detecter les erreurs
mais aussi d'identifier les causes, afin de
prendre les mesures correctives appropriees et
ameliorer la qualite globale
8(No Transcript)
9Comment corriger (redresser)? TABLEAU 1
Population par age et sexe, brut et corrige
- Comment gerer les donnees non declarees?
- Distribuer les ages et sexes non declares dans
les memes proportions que pour les valeurs
correspondantes connues - Par exemple, pour 23 sexe inconnus, distribuer
(2033/4147)23 12 en masculin (et les 11
restant en feminin par soustraction) - Similairement, distribuer 15 ages inconnus dans
les 6 groupes d'age en proportion des valeurs
connues - Cette methode peut donner des resultats biaises
si le nombre de non-reponses est eleve et si la
distribution des repondants et des non-repondants
sont tres differentes - Une strategie amelioree serait d'utiliser des
distributions multivariees impliquant d'autres
variables comme le relations entre membres du
menage
10(No Transcript)
11Pourquoi corriger? TABLES 2 and 3 Population
par age avec/sans ND pour 2000 et 2010
- Un autre probleme est que les non-declares
peuvent affecter l'analyse de tendances - Dans le tableau 2, si les ND ne sont ps pris en
compte, le pourcentage de personnes agees de
15-29 ans apparait en augmentation de 27.2 en
2000 a 30.3 en 2010 - Redistribuer les ND peut changer cette evolution
- Dans le tableau 3, apres distribution de ND, il y
seulement une augmentation de 28.7 en 2000 a
29.3 en 2010
12(No Transcript)
13Principes du controle-correction
- En general, le systeme de correction-controle
doit etre - Minimaliste (ne changer que les erreurs evidentes
et aussi peu que possible) - Automatise (autant que possible, pour la
detection et la correction) - Systematique
- Coherent avec les autres enquetes de l'ONS
- En accord avec les standards internationaux de
l'ONU ou d'autres organisations
14Types de controles
- Types de controles
- Certains identifient les erreurs avec certitude
- Douteux identifient des erreur potentielles
- Les controles certains identifient les erreurs
fatales, qui comprennent les entrees invalides ou
manquantes de meme que les erreurs liees a des
incoherences - Les controles douteux identifient les valeurs
hors de fourchettes subjectives, ou qui semblent
trop elevees ou trop basses comparees avec
d'autres donnees du meme questionnaire - Les erreur fatales doivent etre resolues mais les
erreurs douteuses sont plus difficiles a
corriger, apportent moins de gains en qualite et
compliquent le processus - Pour les erreurs douteuses, des specialistes du
domaine doivent investiguer les controles
developpes pour le recensement pilote et ceux
developpes pendant l'exploitation pour s'assurer
de leur efficacite et efficience (ex., examiner
les compteurs de redressement)
15Micro-controles vs Macro-controles
-
- Micro-controles consistent a s'assurer de la
validite et de la coherence de chaque
enregristrement individuel et des relations entre
les enregistrements d'un meme menage - Macro-controles portent sur des donnees agregees
pour s'assurer de la vraisemblance globale - Exemple, si les resultats du recensement montrent
un fort pourcentage de personnes sans age
declare, imputer les ages au niveau individuel
produira un fichier de donnees complet - MAIS il est encore plus important de s'assurer au
niveau maro que l'imputation n'a pas biaise la
distribution par age
16Impact du mode de saisie
- Types de mode de saisie typiquement utilises
manuel (dactylo), OMR, OCR/ICR, PDA, Internet - Pour la saisie manuelle, PDA, Internet quelque
detection et correction d'erreurs limitees
peuvent etre effectuees en temps reel - Pas possible pour OMR ou OCR/ICR limite au
controle batch apres coup
17controle manuel vs automatique
- controles manuels peuvent etre faits a
differentes etapes du processus agent
recenseur, superviseur, codeur, operateur de
saisie, etc - Inconvenients couteux en ressources humaines et
en temps - faisable seulement si le fichier de donnees est
petit - controles automatiques reduisent le temps
necessaire, limite l'introduction d'erreurs
humaines, et sont reproductibles - Au contraire de l'imputation manuelle, les
controles automatiques permettent d'imputer les
reponses sur la base d'autres informations du
questionnaire ou selon d'autres enregistrements
de la base de donnees
18Risques du sur-controle-correction
- Allonge les delais
- Accroit les couts
- Distortion potentielle de vraies valeurs
- Faux sentiment de securite
19Autres Considerations
- Determination de seuils de tolerance pour la
detection d'erreurs - il y a toujours un petit pourcentage de
repondants qui ne donnent pas de reponses
acceptables - Toutes les incoherences ou erreurs ne sont pas
susceptibles de fausser les resultats et ne
doivent pas necessairement etre corrigees - Il peut etre utile de faire un premier passage
pour mesurer l'ampleur de certaines erreurs avant
de decider d'une action corrective - Important de faire intervenir dans la decision
des specialistes du sujet - Pour des variables de base comme l'age et le
sexe, les taux de non reponse sont typiquement
bas (1-2) tandis que pour des variables comme
la literacie ou le handicap, les taux sont plus
eleves (5-10) - Dans certains cas, il peut etre necessaire de
revenir aux enquetes, soit sur le terrain soit
par telephone - lecons du processus de controle-corrections
- Des iterations peuvent etre utiles pour ameliorer
la qualite du recensement actuel et de futurs
enquetes ou recensement - Compteurs d'occurence, traces de
controles-corrections, mesures de performance
sont utiles pour le diagnostique
20Autres considerations
- Cout de la phase de correction-controle
- Couts n'ont pas vraiment diminue au cours des 20
derniere annees, meme si les processus ont pu
etre rationalises par une exploitation continue
des evolutions technologiques - En general, cette phase prend une part trop
grande du temps d'exploitation relativement aux
autres activites - Peut peser sur les delais de diffusion des
resultats du recensement - Archivage
- Les deux fichiers brut et redresse doivent etre
archives pour analyses futures - Documentation doit comprendre tous les elements
pour pouvoir reconstruire le meme processes
ulterieurement
21MERCI !