Mesure et chantillonnage - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Mesure et chantillonnage

Description:

Estimation par intervalle, taille d' chantillon et tests d'hypoth se ... S lection arbitraire par l'interviewer. M thode des unit s type (s lection d'unit s ... – PowerPoint PPT presentation

Number of Views:566
Avg rating:3.0/5.0
Slides: 43
Provided by: dian72
Category:

less

Transcript and Presenter's Notes

Title: Mesure et chantillonnage


1
Mesure et échantillonnage
  • ECN-13543

2
Plan de la présentation
  • Mise en contexte de la démarche de mesure
  • Le vocabulaire de base des enquêtes
  • Les méthodes déchantillonnage aléatoires et non
    aléatoires
  • Estimation par intervalle, taille déchantillon
    et tests dhypothèse
  • Collecte, pondération et estimation des résultats
  • La planification dune enquête et la vérification
    de lexactitude des résultats
  • Mesures de qualité, confidentialité et éthique
  • Lectures complémentaires

3
Mise en contexte de la démarche de mesure
  • Les observations jouent un rôle capital dans
    lapplication de la méthode scientifique en
    économique (Popper)
  • Les sources utilisées pour les observations
  • Données administratives recueillies dans
    ladministration des programmes
  • Enquêtes statistiques auprès des ménages ou des
    entreprises
  • (Les résultats sont présentés sous forme de
    tableaux mettant en relation deux variables ou de
    suites dobservations dans le temps (séries
    chronologiques ou chroniques))
  • Les observations issues denquêtes statistiques
    peuvent être obtenues de diverses façons
  • Recensement
  • Échantillonnage aléatoire ou non aléatoire

4
Raisons pour effectuer un recensement
  • Obligation constitutionnelle au Canada dans le
    cas du recensement de la population le 16 mai
    2006, le recensement de la population aura lieu
    et il est obligatoire de répondre au
    questionnaire obtenus
  • Seule façon dobtenir de linformation sur de
    petits ensembles ou des caractéristiques rares
    (par exemple, les entreprises utilisant les
    nanotechnologies)
  • Utile à des fins détalonnage des enquêtes auprès
    des individus ou des ménages et des entreprises

5
Raisons de procéder par échantillonnage
  • Généralement moins coûteux que le recensement
  • Plus flexible rapidité, changement dans les
    instruments de collecte
  • Permet dobtenir des informations sur des
    populations dont il est difficile de dresser une
    liste complète des unités constituantes (cas des
    pays en voie de développement cas des ressources
    halieutiques)
  • Permet dobtenir des indicateurs de précision et
    des tests dhypothèse
  • Réduit le fardeau des répondants

6
Le vocabulaire de base des enquêtes
  • Population, unités de base, variable
  • Base de sondage
  • Recensement, échantillonnage aléatoire et non
    aléatoire
  • Collecte des données
  • Estimation et pondération
  • Mesures de précision et de biais
  • Tests dhypothèse

7
Population, unités statistiques et variables
  • Variables (Yi) caractéristiques dintérêt
    (quantitatives ou qualitatives) que lon souhaite
    mesurer (en lien avec lobjet de létude et les
    concepts élaborés)
  • Unités statistiques (Ui) éléments (individus,
    entreprises, établissements, ) porteurs des
    caractéristiques dintérêt à mesurer
  • Population ensemble des unités statistiques
    considérées
  • (la taille (N) dune population est le nombre
    dunités statistiques qui la composent)
  • Distribution de Y fréquence de chacune des
    valeurs possibles de Y dans la population
    considérée

8
Distribution de la variable Y(taille en cm de 53
individus)
Lintervalle qui sétend de 150 cm à 170 cm
contient 50/53 ou 94,3 des tailles observées
dans la population.
9
Statistiques descriptives
  • Mesures de position
  • Moyenne, mode, médiane
  • Mesures de dispersion
  • Variance, écart-type, coefficient de variation
  • Mesures de positions relatives
  • Proportion, percentile (dont décile, quartile),
    rang
  • Note Un paramètre est une mesure synthèse
    qui se réfère à la population alors quune
    statistique réfère à léchantillon.

10
La base de sondage et ses qualités
  • Base de sondage (frame) liste des unités
    composant la population (elle peut être explicite
    ou implicite)
  • Qualités recherchées dune base de sondage
  • Exhaustive
  • Sans duplication des informations
  • Sans erreur
  • Contient toutes les informations requises pour la
    réalisation des observations (par exemple, les
    numéros de téléphone dans le cas dune enquête
    téléphonique)

11
Exemples de bases de sondage
  • Enquêtes auprès des individus ou des ménages
  • Liste des individus et des ménages obtenue du
    recensement de la population du Canada
  • Fichiers administratifs RAMQ, autres fichiers de
    transferts aux particuliers (assistance emploi
    par exemple), fichiers fiscaux (Revenu Canada,
    Revenu Québec)
  • Base aréolaire découpage du territoire
    géographique
  • Génération aléatoire de numéros de téléphone
  • Enquêtes auprès des entreprises
  • Base de données du registre des entreprises
    établies à laide des dossiers fiscaux de Revenu
    Canada
  • Fichier de la CSST, de la CNT, Inspecteur général
    des institutions financières, ...
  • Répertoires privés Dunn Bradstreet, Annuaire
    Scott, ...

12
Recensement et échantillonnage
  • Recensement cueillette des informations
    dintérêt ou des données auprès de toutes les
    unités formant la population
  • Échantillonnage cueillette des données auprès
    dune partie (de taille n) seulement de la
    population (de taille N)
  • Aléatoire une probabilité de sélection non nulle
    (0 lt p 1) peut être attribuée à chaque unité
    échantillonnée cette probabilité peut être égale
    ou inégale dune unité à lautre
  • Non aléatoire une probabilité de sélection ne
    peut pas être attribuée à chaque unité
    échantillonnée

13
Quelques approches non aléatoires
  • Auto sélection des répondants (internet,
    journaux, radio,)
  • Sélection arbitraire par linterviewer
  • Méthode des unités type (sélection dunités
    représentatives par un spécialiste)
  • Méthode des quota (hypothèse un échantillon
    identique à la population dans laquelle il est
    prélevé en ce qui concerne la distribution de
    certains caractères importants sera également peu
    différent de la population, en ce qui concerne la
    distribution statistique des caractères qui ne
    sont pas contrôlés (Desabie))
  • Note Ces méthodes ne permettent pas
    dinférence statistique des résultats à
    lensemble de la population.

14
Quelques types déchantillonnage aléatoire (1 de
2)
  • Simple équiprobabilité de sélection des unités
    (principe de lurne, utilisation des tables de
    nombres aléatoires, principe de
    léchantillonnage systématique)
  • Stratifié la population est divisée en
    sous-groupe (strates) et un échantillonnage
    aléatoire est pratiqué dans chaque strate
  • À deux degrés (two stages) la population
    contient des unités primaires et des unités
    secondaires. Des unités primaires (u.p.e.) sont
    sélectionnées aléatoirement et à lintérieur de
    celles-ci, on sélectionne aléatoirement des
    unités secondaires (u.s.e.) sur lesquelles on
    recueille les informations (la probabilité de
    sélection de lunité dobservation est égale au
    produit des deux probabilités, primaire et
    secondaire).

15
Quelques types déchantillonnage aléatoire (1 de
2)
  • En grappe (cluster) la population contient des
    unités primaires et des unités secondaires. Des
    unités primaires sont sélectionnées de façon
    aléatoire et on recueille les informations auprès
    de toutes les unités secondaires faisant partie
    de chacune des unités primaires choisies au
    premier niveau (il sagit dun cas particulier de
    sondage à deux degrés la probabilité de
    sélection au deuxième niveau est égale à 1).
  • Note Dans les enquêtes complexes menées par
    les agences statistiques, toutes ces méthodes
    sont utilisées simultanément et combinées entre
    elles.

16
Avantages et désavantages des diverses méthodes
  • Aléatoire simple facile dapplication sert
    détalon pour mesurer les gains de précision des
    autres méthodes. Cette méthode ne garantit
    cependant pas une bonne représentation des
    caractéristiques sous-jacentes de la population
  • Stratifié garantit une bonne répartition de
    léchantillon à travers la population et assure
    des gains de précision par rapport à la méthode
    précédente si les strates sont homogènes à
    linterne quant à leurs caractéristiques et
    hétérogènes entre elles
  • En grappe minimise les coûts de collecte mais ne
    donne pas autant de précision, à taille
    déchantillon égale, que la méthode précédente

17
Quelques estimateurs ponctuels
  • Moyenne
  • Proportion
  • Variances

(Nombre des unités présentant la caractéristique)
/ n
18
Exemple de calcul pour la moyenne et la variance
  • Supposons que nous ayons recueillis les 6
    observations suivantes 8, 7, 4, 9, 3, 5
  • La moyenne des observations est (874935)/6
    6
  • La variance des observations sera
  • s2 ((8-6)2(7-6)2(4-6)2(9-6)2(3-6)2(5-6
    )2)/(6-1)
  • (4149991)/5 37/5 7,4
  • (le nombre 6 soustrait de chaque observation est
    la valeur de la moyenne)

19
Intervalles de confiance et marge derreur
  • Problématique Parallèlement à lestimation
    ponctuelle, on est souvent amené à vouloir
    déterminer un intervalle susceptible de contenir
    la vraie valeur dun paramètre inconnu de la
    population analysée (moyenne m, proportion p,
    variance s2, ...) et dans ce cas, lanalyste doit
    indiquer la probabilité (notée 1 - a) souhaitée
    que cet intervalle contienne réellement la vraie
    valeur du paramètre
  • Moyenne
  • Proportion
  • Note La marge derreur (notée d) est égale
    à lexpression retranchée ou ajoutée à
    lestimateur ponctuel du paramètre (cest la
    demi longueur de lintervalle de confiance).

20
Exemple de calcul dun intervalle de
confiance(cas dune moyenne suite à un
échantillonnage aléatoire simple)
  • Énoncé du cas Une enquête est faite auprès de
    650 établissements dans une région qui en compte
    31 800. Lobjectif est didentifier le nombre
    moyen demplois par établissement créés au cours
    de lété pour les étudiants et le volume en
    équivalent étudiant-semaines de ces emplois.
  • Les résultats obtenus figurent au tableau
    suivant
  • Les intervalles de niveau 1-a 0,95 pour les
    moyennes sont

21
Taille de léchantillon (échantillonnage
aléatoire simple)
  • Préalables
  • Taille de la population (N)
  • Précision souhaitée (marge derreur) ( ou -) (d)
  • Niveau de confiance (1-a) (valeur associée
    )
  • La formule de calcul pour une proportion
  • avec
  • (Notez que lécart entre n0 et n devient
    négligeable dès que N est très grand car n0/N se
    rapproche alors de 0)

22
Exemple de calcul(échantillonnage aléatoire
simple)
  • Soit N3200, d0,04 et a0,05
  • la valeur associée à a 0,05 selon les
    tables de la loi de
  • probabilité de Student est égale à 1,96 et on
    utilise p0,5 dans la formule déjà fournie
    (puisque la vraie valeur de p est inconnue, cette
    valeur de 0,5 maximise la taille de léchantillon
    à utiliser),
  • on obtient n0600,38
  • et n 505,54 ou 506 unités à
    échantillonner
  • Lénoncé classique Le sondage a été réalisé
    auprès de 506 personnes, par téléphone, du 7 au
    12 janvier. La marge derreur de cette enquête
    dopinion est dau plus 4, 19 fois sur 20.
  • (Source Le Soleil, 16 janvier 2004
    (adaptation à lexemple))

23
Feuille de calcul
  • Intervalle de confiance
  • Marge derreur 1.96 X 0.0475 0.0931
  • Taille de léchantillon

On arrondit la valeur de n à lentier
immédiatement supérieur, soit 506
24
Tests dhypothèses et types derreur(cas dune
moyenne m)
  • Hypothèse nulle H0 m m0
  • Hypothèse alternative H1 m ? m0
  • Erreur de type I Rejeter H0 lorsque H0 nest pas
    fausse (probabilité a) (généralement, les
    hypothèses sont formulées de sorte que ce soit le
    risque le plus important)
  • Erreur de type II Ne pas rejeter H0 lorsque
    H0 est fausse (probabilité b (1 - b mesure la
    puissance du test))
  • Règle de décision
  • En utilisant les données de léchantillon, on
    calcule la moyenne de léchantillon
  • En utilisant lécart-type léchantillon, on
    calcule la marge derreur d
  • Si la moyenne de léchantillon se situe à
    lintérieur de lintervalle m0 d, alors on ne
    rejette pas lhypothèse H0 au niveau de confiance
    retenu

25
Exemple de calcul(Test dune hypothèse à partir
de lexemple précédent)
  • Exposé de la situation Un fonctionnaire prétend
    que le nombre détudiant-semaines créé par
    entreprise sera de 15. Que peut-on répondre à
    cette affirmation avec un niveau de confiance de
    95?
  • La réponse peut être analysée à laide dun test
    dhypothèse.
  • On pose les hypothèses suivantes H0 m 15

  • H1 m ? 15
  • En utilisant la règle de décision énoncée, on
    rejettera lhypothèse nulle si la valeur moyenne
    observée dans léchantillon se situe à
    lextérieur de lintervalle de confiance 15
    1,34 c.-à-d. (13.66, 16,34)
  • Comme la moyenne observée dans léchantillon est
    de 14,23, on ne peut pas rejeter la prétention du
    fonctionnaire au niveau de confiance retenu.

26
Collecte des données
  • Opération par laquelle les variables sont
    mesurées auprès des unités qui composent la
    population
  • Elle seffectue généralement en sappuyant sur
    des questionnaires qui sont administrés de
    diverses façons (selon la complexité et le
    budget)
  • Par entrevue directe (y incluant des mesures
    physiques dans le cas des enquêtes de santé par
    exemple)
  • Par la poste
  • Par téléphone (ITAO)
  • Par Internet (en utilisant des techniques
    dencryptage appropriées)

27
Estimation et pondération
  • Estimation Combinaison de observations
    recueillies auprès des unités statistiques pour
    inférer une valeur concernant la population
    considérée (moyenne, proportion, rapport)
  • Pondération En échantillonnage aléatoire, les
    unités sélectionnées ont une probabilité (p) de
    sélection. Linverse de cette probabilité est le
    poids (w) de lunité sélectionnée (e.g. si p
    1/250, alors w 250)
  • En quelque sorte, la valeur observée doit
    être considérée comme étant commune à 250 unités
    de la population pour les fins de lestimation

28
Limportance de la pondération(Exemple de la
mesure du taux de vaccination dans deux villages
A et B)
  • Démarche de mesure
  • Village A choix aléatoire de 10 enfants sur 20
  • Village B choix aléatoire de 10 enfants sur 1000
  • Résultats observés
  • Village A 5 enfants sur 10 sont vaccinés (taux
    de 50)
  • Village B 10 enfants sur 10 sont vaccinés (taux
    de 100)
  • Estimation du taux de vaccination combiné des
    deux villages
  • Sans pondération (50 100) / 2 75
  • Avec pondération ((50 x 20) (100 x 1000)) /
    (20 1000) 99

29
Estimation et pondération (suite)
  • Quelques estimateurs courants
  • Moyenne
  • Total
  • Rapport de deux caractéristiques X et Y
  • (Cas particulier dune proportion yi 0 ou
    1, xi 1)

30
Exemple destimation avec et sans
pondération(N1020, n20, le nombre de vaccinés
est la variable observée,échantillonnage
aléatoire à deux degrés)
  • Estimation de la proportion de vaccinés avec
    pondération 101/102 0,99
  • Estimation de la proportion de vaccinés sans
    pondération 1,5/2 0,75

31
Les étapes dune enquête (1 de 2)
  • Idée originale (objet détude (variables
    principales à considérer), population cible,
    précision désirée, budget)
  • Revue des informations existantes (lenquête
    est-elle nécessaire? peut-on obtenir les
    informations autrement?)
  • Définition des hypothèses et du plan danalyse
  • Identification de la population cible et plan
    déchantillonnage (s/c précision, taux de réponse
    attendu et budget disponible)
  • Identification de la réglementation à respecter
  • Préparation et test du questionnaire ainsi que
    des documents daccompagnement de lenvoi aux
    répondants obtention des autorisations requises

32
Les étapes dune enquête (2 de 2)
  • Tirage de léchantillon
  • Collecte des données
  • Préparation des données (mise en forme, codage,
    saisie, épuration des fichiers)
  • Contrôle de la qualité/vérification
  • Traitement des données (imputation, estimation,
    production de tabulations, mesures de précision)
  • Contrôle de la divulgation (confidentialité)
  • Analyse des données et rédaction du rapport final
  • Évaluation de lopération et recommandations en
    cas dune éventuelle reprise de lenquête
  • Note Certaines opérations peuvent se
    dérouler en parallèle, ce qui nécessite une
    gestion de projet serrée (PERT, GANTT, ).

33
La vérification de lexactitude des résultats
  • Les erreurs dues à léchantillonnage
  • Source seulement une partie de la population est
    observée
  • Critère précision des estimations
  • Les erreurs non dues à léchantillonnage (biais)
  • Source multiples
  • Critère évaluation de la qualité des opérations

34
Les mesures de précision
  • Estimation de la variance dune moyenne (cas dun
    échantillonnage aléatoire simple)
  • avec
  • Note Lécart-type (standard deviation)
    est la racine carrée de la variance.
  • Coefficient de variation (pour une moyenne)
  • (Le coefficient de variation relativise la
    mesure de dispersion par rapport à lordre de
    grandeur moyen de la variable estimée (cest un
    nombre pur que lon exprime fréquemment en
    pourcentage) )

35
Le coefficient de variation
  • Il sagit de la mesure de précision la plus
    utilisée
  • Un CV inférieur à 5 est excellent
  • Un CV inférieur à 10 est très bon
  • Un CV inférieur à 15 est bon
  • Un CV inférieur à 25 est passable
  • Au delà de 50, on hésitera à publier
  • Note Il est important de signaler aux
    utilisateurs dêtre prudents dans lutilisation
    destimations dont les coefficients de variation
    sont élevés

36
Quelques sources de biais non aléatoire
(American Statistical Association)
  • Mauvais tirage de léchantillon ou mauvaise base
    de sondage
  • Non réponse totale ou partielle
  • Substitution de répondant
  • Mauvaise compréhension des concepts
  • Absence dinformation sur la réponse
  • Fausse réponse
  • Questions tendancieuses
  • Erreurs de traitement des questionnaires
  • Écart entre linformation recherchée et celle
    couverte par lenquête
  • Comportement des interviewers

37
Note sur les taux de réponse
  • Dans les organismes statistiques officiels, les
    taux de réponse aux enquêtes sont
  • De lordre de 80 à 90, pour les enquêtes auprès
    des individus ou des ménages
  • De lordre de 70 et plus, pour les enquêtes
    auprès des entreprises
  • (on fera jusquà huit ou neuf rappels dans
    les agences statistiques)
  • Il est important de sassurer que les taux de
    réponse total et partiels soient bien calculés
  • (en utilisant la totalité des unités
    échantillonnées admissibles et non pas seulement
    celles qui ont été rejointes lors de la collecte
    donc il y une différence avec les refus de
    répondre)

38
Gestion de la non réponse
  • Augmentation initiale de la taille de
    léchantillon
  • Relance auprès des unités échantillonnées
  • Sélection dun échantillon de non répondants
  • Utilisation des valeurs moyennes
  • Imputation à partir dunités semblables
  • Modélisation complexe (e.g. modèles de régression
    ou autres)
  • Modification de la pondération des observations

39
Respect de la confidentialité et éthique
  • Bien informer le répondant du commanditaire et
    des objectifs de lenquête
  • Éviter les questions non pertinentes
  • Assurer le répondant de lanonymat
  • Indiquer la façon dont les informations seront
    traitées et garantir la confidentialité des
    informations fournies, notamment par le codage
    des questionnaires, la non diffusion de données
    extrêmes ou permettant par recoupement
    lidentification dun répondant
  • Aborder les répondants de façon polie et honnête
    en étant conscient du fardeau imposé

40
La gestion de la confidentialité
  • Un ensemble de règles de base (Duffett)
  • Il doit y avoir au moins 3 répondants pour la
    cellule
  • Aucun répondant ne doit représenter plus de 80
    de la valeur de la cellule
  • La confidentialité peut également être indirecte
  • Un exemple de masquage de données confidentielles

Source Cox L.H. et R. A. Dandekar, A Disclosure
Limitation Method For Tabular Data That Preserves
Data Acuracy and Ease-of-Use, 2004
41
Conclusion les six composantes de la qualité
(Statistique Canada)
  • Pertinence
  • Exactitude
  • Actualité
  • Accessibilité
  • Intelligibilité
  • Cohérence
  • Source Lignes directrices concernant la
    qualité, Statistique Canada, 2003

42
Lectures complémentaires
  • Lignes directrices concernant la qualité,
    Statistique Canada, 2003
  • Statistical Guidelines for Surveys and
    Publications, Annexe A, National Science
    Foundation, Division of Science Resources
    Statistics, 2001
  • Les statistiques le pouvoir des données,
    Ressources éducatives, Site Internet de
    Statistique Canada, 2007
  • Enquête sur lemploi et le recrutement, Rapport
    méthodologique, Institut de la statistique du
    Québec, décembre 2001
  • Enquête nationale sur la situation des enfants et
    des femmes 2001, chapitre 1 (pp. 5-20), UNICEF,
    Kinshasa, 2002
  • Exemple déchantillonnage, Corrigé des exercices
    du chapitre 2 PAUSES-EXERCICES, Document sur
    Internet, 2006
  • Taylor-Powell E., Sampling, Program Developement
    and Evaluation, 1998
  • Taylor-Powell E., Analysing Quantitative Data,
    Program Development and Evaluation, 1996
Write a Comment
User Comments (0)
About PowerShow.com