Title: Mesure et chantillonnage
1Mesure et échantillonnage
2Plan de la présentation
- Mise en contexte de la démarche de mesure
- Le vocabulaire de base des enquêtes
- Les méthodes déchantillonnage aléatoires et non
aléatoires - Estimation par intervalle, taille déchantillon
et tests dhypothèse - Collecte, pondération et estimation des résultats
- La planification dune enquête et la vérification
de lexactitude des résultats - Mesures de qualité, confidentialité et éthique
- Lectures complémentaires
3Mise en contexte de la démarche de mesure
- Les observations jouent un rôle capital dans
lapplication de la méthode scientifique en
économique (Popper) - Les sources utilisées pour les observations
- Données administratives recueillies dans
ladministration des programmes - Enquêtes statistiques auprès des ménages ou des
entreprises - (Les résultats sont présentés sous forme de
tableaux mettant en relation deux variables ou de
suites dobservations dans le temps (séries
chronologiques ou chroniques)) - Les observations issues denquêtes statistiques
peuvent être obtenues de diverses façons - Recensement
- Échantillonnage aléatoire ou non aléatoire
4Raisons pour effectuer un recensement
- Obligation constitutionnelle au Canada dans le
cas du recensement de la population le 16 mai
2006, le recensement de la population aura lieu
et il est obligatoire de répondre au
questionnaire obtenus - Seule façon dobtenir de linformation sur de
petits ensembles ou des caractéristiques rares
(par exemple, les entreprises utilisant les
nanotechnologies) - Utile à des fins détalonnage des enquêtes auprès
des individus ou des ménages et des entreprises
5Raisons de procéder par échantillonnage
- Généralement moins coûteux que le recensement
- Plus flexible rapidité, changement dans les
instruments de collecte - Permet dobtenir des informations sur des
populations dont il est difficile de dresser une
liste complète des unités constituantes (cas des
pays en voie de développement cas des ressources
halieutiques) - Permet dobtenir des indicateurs de précision et
des tests dhypothèse - Réduit le fardeau des répondants
6Le vocabulaire de base des enquêtes
- Population, unités de base, variable
- Base de sondage
- Recensement, échantillonnage aléatoire et non
aléatoire - Collecte des données
- Estimation et pondération
- Mesures de précision et de biais
- Tests dhypothèse
7Population, unités statistiques et variables
- Variables (Yi) caractéristiques dintérêt
(quantitatives ou qualitatives) que lon souhaite
mesurer (en lien avec lobjet de létude et les
concepts élaborés) - Unités statistiques (Ui) éléments (individus,
entreprises, établissements, ) porteurs des
caractéristiques dintérêt à mesurer - Population ensemble des unités statistiques
considérées - (la taille (N) dune population est le nombre
dunités statistiques qui la composent) - Distribution de Y fréquence de chacune des
valeurs possibles de Y dans la population
considérée
8Distribution de la variable Y(taille en cm de 53
individus)
Lintervalle qui sétend de 150 cm à 170 cm
contient 50/53 ou 94,3 des tailles observées
dans la population.
9Statistiques descriptives
- Mesures de position
- Moyenne, mode, médiane
- Mesures de dispersion
- Variance, écart-type, coefficient de variation
- Mesures de positions relatives
- Proportion, percentile (dont décile, quartile),
rang -
- Note Un paramètre est une mesure synthèse
qui se réfère à la population alors quune
statistique réfère à léchantillon.
10La base de sondage et ses qualités
- Base de sondage (frame) liste des unités
composant la population (elle peut être explicite
ou implicite) - Qualités recherchées dune base de sondage
- Exhaustive
- Sans duplication des informations
- Sans erreur
- Contient toutes les informations requises pour la
réalisation des observations (par exemple, les
numéros de téléphone dans le cas dune enquête
téléphonique)
11Exemples de bases de sondage
- Enquêtes auprès des individus ou des ménages
- Liste des individus et des ménages obtenue du
recensement de la population du Canada - Fichiers administratifs RAMQ, autres fichiers de
transferts aux particuliers (assistance emploi
par exemple), fichiers fiscaux (Revenu Canada,
Revenu Québec) - Base aréolaire découpage du territoire
géographique - Génération aléatoire de numéros de téléphone
- Enquêtes auprès des entreprises
- Base de données du registre des entreprises
établies à laide des dossiers fiscaux de Revenu
Canada - Fichier de la CSST, de la CNT, Inspecteur général
des institutions financières, ... - Répertoires privés Dunn Bradstreet, Annuaire
Scott, ...
12Recensement et échantillonnage
- Recensement cueillette des informations
dintérêt ou des données auprès de toutes les
unités formant la population - Échantillonnage cueillette des données auprès
dune partie (de taille n) seulement de la
population (de taille N) - Aléatoire une probabilité de sélection non nulle
(0 lt p 1) peut être attribuée à chaque unité
échantillonnée cette probabilité peut être égale
ou inégale dune unité à lautre - Non aléatoire une probabilité de sélection ne
peut pas être attribuée à chaque unité
échantillonnée
13Quelques approches non aléatoires
- Auto sélection des répondants (internet,
journaux, radio,) - Sélection arbitraire par linterviewer
- Méthode des unités type (sélection dunités
représentatives par un spécialiste) - Méthode des quota (hypothèse un échantillon
identique à la population dans laquelle il est
prélevé en ce qui concerne la distribution de
certains caractères importants sera également peu
différent de la population, en ce qui concerne la
distribution statistique des caractères qui ne
sont pas contrôlés (Desabie)) -
- Note Ces méthodes ne permettent pas
dinférence statistique des résultats Ã
lensemble de la population.
14Quelques types déchantillonnage aléatoire (1 de
2)
- Simple équiprobabilité de sélection des unités
(principe de lurne, utilisation des tables de
nombres aléatoires, principe de
léchantillonnage systématique) - Stratifié la population est divisée en
sous-groupe (strates) et un échantillonnage
aléatoire est pratiqué dans chaque strate - À deux degrés (two stages) la population
contient des unités primaires et des unités
secondaires. Des unités primaires (u.p.e.) sont
sélectionnées aléatoirement et à lintérieur de
celles-ci, on sélectionne aléatoirement des
unités secondaires (u.s.e.) sur lesquelles on
recueille les informations (la probabilité de
sélection de lunité dobservation est égale au
produit des deux probabilités, primaire et
secondaire).
15Quelques types déchantillonnage aléatoire (1 de
2)
- En grappe (cluster) la population contient des
unités primaires et des unités secondaires. Des
unités primaires sont sélectionnées de façon
aléatoire et on recueille les informations auprès
de toutes les unités secondaires faisant partie
de chacune des unités primaires choisies au
premier niveau (il sagit dun cas particulier de
sondage à deux degrés la probabilité de
sélection au deuxième niveau est égale à 1). - Note Dans les enquêtes complexes menées par
les agences statistiques, toutes ces méthodes
sont utilisées simultanément et combinées entre
elles.
16Avantages et désavantages des diverses méthodes
- Aléatoire simple facile dapplication sert
détalon pour mesurer les gains de précision des
autres méthodes. Cette méthode ne garantit
cependant pas une bonne représentation des
caractéristiques sous-jacentes de la population - Stratifié garantit une bonne répartition de
léchantillon à travers la population et assure
des gains de précision par rapport à la méthode
précédente si les strates sont homogènes Ã
linterne quant à leurs caractéristiques et
hétérogènes entre elles - En grappe minimise les coûts de collecte mais ne
donne pas autant de précision, à taille
déchantillon égale, que la méthode précédente
17Quelques estimateurs ponctuels
- Moyenne
- Proportion
- Variances
-
(Nombre des unités présentant la caractéristique)
/ n
18Exemple de calcul pour la moyenne et la variance
- Supposons que nous ayons recueillis les 6
observations suivantes 8, 7, 4, 9, 3, 5 - La moyenne des observations est (874935)/6
6 - La variance des observations sera
- s2 ((8-6)2(7-6)2(4-6)2(9-6)2(3-6)2(5-6
)2)/(6-1) - (4149991)/5 37/5 7,4
- (le nombre 6 soustrait de chaque observation est
la valeur de la moyenne)
19Intervalles de confiance et marge derreur
- Problématique Parallèlement à lestimation
ponctuelle, on est souvent amené à vouloir
déterminer un intervalle susceptible de contenir
la vraie valeur dun paramètre inconnu de la
population analysée (moyenne m, proportion p,
variance s2, ...) et dans ce cas, lanalyste doit
indiquer la probabilité (notée 1 - a) souhaitée
que cet intervalle contienne réellement la vraie
valeur du paramètre - Moyenne
- Proportion
- Note La marge derreur (notée d) est égale
à lexpression retranchée ou ajoutée Ã
lestimateur ponctuel du paramètre (cest la
demi longueur de lintervalle de confiance).
20Exemple de calcul dun intervalle de
confiance(cas dune moyenne suite à un
échantillonnage aléatoire simple)
- Énoncé du cas Une enquête est faite auprès de
650 établissements dans une région qui en compte
31 800. Lobjectif est didentifier le nombre
moyen demplois par établissement créés au cours
de lété pour les étudiants et le volume en
équivalent étudiant-semaines de ces emplois. - Les résultats obtenus figurent au tableau
suivant - Les intervalles de niveau 1-a 0,95 pour les
moyennes sont
21Taille de léchantillon (échantillonnage
aléatoire simple)
- Préalables
- Taille de la population (N)
- Précision souhaitée (marge derreur) ( ou -) (d)
- Niveau de confiance (1-a) (valeur associée
) - La formule de calcul pour une proportion
- avec
- (Notez que lécart entre n0 et n devient
négligeable dès que N est très grand car n0/N se
rapproche alors de 0)
22Exemple de calcul(échantillonnage aléatoire
simple)
- Soit N3200, d0,04 et a0,05
- la valeur associée à a 0,05 selon les
tables de la loi de - probabilité de Student est égale à 1,96 et on
utilise p0,5 dans la formule déjà fournie
(puisque la vraie valeur de p est inconnue, cette
valeur de 0,5 maximise la taille de léchantillon
à utiliser), - on obtient n0600,38
- et n 505,54 ou 506 unités Ã
échantillonner - Lénoncé classique Le sondage a été réalisé
auprès de 506 personnes, par téléphone, du 7 au
12 janvier. La marge derreur de cette enquête
dopinion est dau plus 4, 19 fois sur 20. - (Source Le Soleil, 16 janvier 2004
(adaptation à lexemple)) -
23Feuille de calcul
- Intervalle de confiance
- Marge derreur 1.96 X 0.0475 0.0931
- Taille de léchantillon
On arrondit la valeur de n à lentier
immédiatement supérieur, soit 506
24Tests dhypothèses et types derreur(cas dune
moyenne m)
- Hypothèse nulle H0 m m0
- Hypothèse alternative H1 m ? m0
- Erreur de type I Rejeter H0 lorsque H0 nest pas
fausse (probabilité a) (généralement, les
hypothèses sont formulées de sorte que ce soit le
risque le plus important) - Erreur de type II Ne pas rejeter H0 lorsque
H0 est fausse (probabilité b (1 - b mesure la
puissance du test)) - Règle de décision
- En utilisant les données de léchantillon, on
calcule la moyenne de léchantillon - En utilisant lécart-type léchantillon, on
calcule la marge derreur d - Si la moyenne de léchantillon se situe Ã
lintérieur de lintervalle m0 d, alors on ne
rejette pas lhypothèse H0 au niveau de confiance
retenu
25Exemple de calcul(Test dune hypothèse à partir
de lexemple précédent)
- Exposé de la situation Un fonctionnaire prétend
que le nombre détudiant-semaines créé par
entreprise sera de 15. Que peut-on répondre Ã
cette affirmation avec un niveau de confiance de
95? - La réponse peut être analysée à laide dun test
dhypothèse. - On pose les hypothèses suivantes H0 m 15
-
H1 m ? 15 - En utilisant la règle de décision énoncée, on
rejettera lhypothèse nulle si la valeur moyenne
observée dans léchantillon se situe Ã
lextérieur de lintervalle de confiance 15
1,34 c.-à -d. (13.66, 16,34) - Comme la moyenne observée dans léchantillon est
de 14,23, on ne peut pas rejeter la prétention du
fonctionnaire au niveau de confiance retenu.
26Collecte des données
- Opération par laquelle les variables sont
mesurées auprès des unités qui composent la
population - Elle seffectue généralement en sappuyant sur
des questionnaires qui sont administrés de
diverses façons (selon la complexité et le
budget) - Par entrevue directe (y incluant des mesures
physiques dans le cas des enquêtes de santé par
exemple) - Par la poste
- Par téléphone (ITAO)
- Par Internet (en utilisant des techniques
dencryptage appropriées)
27Estimation et pondération
- Estimation Combinaison de observations
recueillies auprès des unités statistiques pour
inférer une valeur concernant la population
considérée (moyenne, proportion, rapport) - Pondération En échantillonnage aléatoire, les
unités sélectionnées ont une probabilité (p) de
sélection. Linverse de cette probabilité est le
poids (w) de lunité sélectionnée (e.g. si p
1/250, alors w 250) - En quelque sorte, la valeur observée doit
être considérée comme étant commune à 250 unités
de la population pour les fins de lestimation
28Limportance de la pondération(Exemple de la
mesure du taux de vaccination dans deux villages
A et B)
- Démarche de mesure
- Village A choix aléatoire de 10 enfants sur 20
- Village B choix aléatoire de 10 enfants sur 1000
- Résultats observés
- Village A 5 enfants sur 10 sont vaccinés (taux
de 50) - Village B 10 enfants sur 10 sont vaccinés (taux
de 100) - Estimation du taux de vaccination combiné des
deux villages - Sans pondération (50 100) / 2 75
- Avec pondération ((50 x 20) (100 x 1000)) /
(20 1000) 99
29Estimation et pondération (suite)
- Quelques estimateurs courants
- Moyenne
-
- Total
-
- Rapport de deux caractéristiques X et Y
- (Cas particulier dune proportion yi 0 ou
1, xi 1) -
30Exemple destimation avec et sans
pondération(N1020, n20, le nombre de vaccinés
est la variable observée,échantillonnage
aléatoire à deux degrés)
- Estimation de la proportion de vaccinés avec
pondération 101/102 0,99 - Estimation de la proportion de vaccinés sans
pondération 1,5/2 0,75
31Les étapes dune enquête (1 de 2)
- Idée originale (objet détude (variables
principales à considérer), population cible,
précision désirée, budget) - Revue des informations existantes (lenquête
est-elle nécessaire? peut-on obtenir les
informations autrement?) - Définition des hypothèses et du plan danalyse
- Identification de la population cible et plan
déchantillonnage (s/c précision, taux de réponse
attendu et budget disponible) - Identification de la réglementation à respecter
- Préparation et test du questionnaire ainsi que
des documents daccompagnement de lenvoi aux
répondants obtention des autorisations requises
32Les étapes dune enquête (2 de 2)
- Tirage de léchantillon
- Collecte des données
- Préparation des données (mise en forme, codage,
saisie, épuration des fichiers) - Contrôle de la qualité/vérification
- Traitement des données (imputation, estimation,
production de tabulations, mesures de précision) - Contrôle de la divulgation (confidentialité)
- Analyse des données et rédaction du rapport final
- Évaluation de lopération et recommandations en
cas dune éventuelle reprise de lenquête - Note Certaines opérations peuvent se
dérouler en parallèle, ce qui nécessite une
gestion de projet serrée (PERT, GANTT, ).
33La vérification de lexactitude des résultats
- Les erreurs dues à léchantillonnage
- Source seulement une partie de la population est
observée - Critère précision des estimations
- Les erreurs non dues à léchantillonnage (biais)
- Source multiples
- Critère évaluation de la qualité des opérations
34Les mesures de précision
- Estimation de la variance dune moyenne (cas dun
échantillonnage aléatoire simple) - avec
- Note Lécart-type (standard deviation)
est la racine carrée de la variance. - Coefficient de variation (pour une moyenne)
-
- (Le coefficient de variation relativise la
mesure de dispersion par rapport à lordre de
grandeur moyen de la variable estimée (cest un
nombre pur que lon exprime fréquemment en
pourcentage) )
35Le coefficient de variation
- Il sagit de la mesure de précision la plus
utilisée - Un CV inférieur à 5 est excellent
- Un CV inférieur à 10 est très bon
- Un CV inférieur à 15 est bon
- Un CV inférieur à 25 est passable
- Au delà de 50, on hésitera à publier
- Note Il est important de signaler aux
utilisateurs dêtre prudents dans lutilisation
destimations dont les coefficients de variation
sont élevés
36Quelques sources de biais non aléatoire
(American Statistical Association)
- Mauvais tirage de léchantillon ou mauvaise base
de sondage - Non réponse totale ou partielle
- Substitution de répondant
- Mauvaise compréhension des concepts
- Absence dinformation sur la réponse
- Fausse réponse
- Questions tendancieuses
- Erreurs de traitement des questionnaires
- Écart entre linformation recherchée et celle
couverte par lenquête - Comportement des interviewers
37Note sur les taux de réponse
- Dans les organismes statistiques officiels, les
taux de réponse aux enquêtes sont - De lordre de 80 à 90, pour les enquêtes auprès
des individus ou des ménages - De lordre de 70 et plus, pour les enquêtes
auprès des entreprises - (on fera jusquà huit ou neuf rappels dans
les agences statistiques) - Il est important de sassurer que les taux de
réponse total et partiels soient bien calculés - (en utilisant la totalité des unités
échantillonnées admissibles et non pas seulement
celles qui ont été rejointes lors de la collecte
donc il y une différence avec les refus de
répondre)
38Gestion de la non réponse
- Augmentation initiale de la taille de
léchantillon - Relance auprès des unités échantillonnées
- Sélection dun échantillon de non répondants
- Utilisation des valeurs moyennes
- Imputation à partir dunités semblables
- Modélisation complexe (e.g. modèles de régression
ou autres) - Modification de la pondération des observations
39Respect de la confidentialité et éthique
- Bien informer le répondant du commanditaire et
des objectifs de lenquête - Éviter les questions non pertinentes
- Assurer le répondant de lanonymat
- Indiquer la façon dont les informations seront
traitées et garantir la confidentialité des
informations fournies, notamment par le codage
des questionnaires, la non diffusion de données
extrêmes ou permettant par recoupement
lidentification dun répondant - Aborder les répondants de façon polie et honnête
en étant conscient du fardeau imposé
40La gestion de la confidentialité
- Un ensemble de règles de base (Duffett)
- Il doit y avoir au moins 3 répondants pour la
cellule - Aucun répondant ne doit représenter plus de 80
de la valeur de la cellule - La confidentialité peut également être indirecte
- Un exemple de masquage de données confidentielles
Source Cox L.H. et R. A. Dandekar, A Disclosure
Limitation Method For Tabular Data That Preserves
Data Acuracy and Ease-of-Use, 2004
41Conclusion les six composantes de la qualité
(Statistique Canada)
- Pertinence
- Exactitude
- Actualité
- Accessibilité
- Intelligibilité
- Cohérence
- Source Lignes directrices concernant la
qualité, Statistique Canada, 2003
42Lectures complémentaires
- Lignes directrices concernant la qualité,
Statistique Canada, 2003 - Statistical Guidelines for Surveys and
Publications, Annexe A, National Science
Foundation, Division of Science Resources
Statistics, 2001 - Les statistiques le pouvoir des données,
Ressources éducatives, Site Internet de
Statistique Canada, 2007 - Enquête sur lemploi et le recrutement, Rapport
méthodologique, Institut de la statistique du
Québec, décembre 2001 - Enquête nationale sur la situation des enfants et
des femmes 2001, chapitre 1 (pp. 5-20), UNICEF,
Kinshasa, 2002 - Exemple déchantillonnage, Corrigé des exercices
du chapitre 2 PAUSES-EXERCICES, Document sur
Internet, 2006 - Taylor-Powell E., Sampling, Program Developement
and Evaluation, 1998 - Taylor-Powell E., Analysing Quantitative Data,
Program Development and Evaluation, 1996