Statistiques - PowerPoint PPT Presentation

1 / 59
About This Presentation
Title:

Statistiques

Description:

par exemple estim e la fr quence des nouveaux cas (incidence) d'infarctus aigus du myocarde par ann e dans le d partement de M&M. Recherche de facteur de risque ... – PowerPoint PPT presentation

Number of Views:1162
Avg rating:3.0/5.0
Slides: 60
Provided by: spieaoU
Category:

less

Transcript and Presenter's Notes

Title: Statistiques


1
Statistiques
  • Organisation du cours
  • 1er semestre 2005/2006 Pr. KOHLER
    (kohler_at_medecine.uhp-nancy.fr)
  • Statistiques descriptives
  • Généralités, Variabilité
  • La collecte des données
  • Types de variables
  • Méthodes déchantillonnage  Etudes descriptives
    observationnelles, expérimentations, types
    denquêtes
  • Les biais  Biais de caractérisation ou
    dinformation, biais de sélection, facteur de
    confusion
  • Paradoxe de Simpson
  • Les tableaux et représentations graphiques
  • Les paramètres statistiques
  • Statistiques descriptives à 2 dimensions
    Probabilités
  • Probabilités et probabilités conditionnelles
  • Définition
  • Probabilités conditionnelles
  • Théorème de Bayes
  • Calcul des taux de survie
  • Risque relatif et odds ratio
  • Lois de probabilité

2
Statistiques Généralités
  • Introduction
  • Statistiques (latin  status  état)
  • Ensemble cohérent de données numériques
    relatives à un groupe d'individus.
  • Statistiques démographiques
  • Statistiques annuelles des établissements de
    santé
  • Statistiques du chômage
  • Statistiques de santé
  • Etat de santé de la population
  • Activité Statistiques dactivité hospitalière
    (SAE), PMSI
  • Rôle de lINSEE
  • Statistique
  • Ensemble des méthodes qui permettent de
    rassembler et d'analyser les données numériques
  • Paramètre tel que moyenne... calculé à partir
    d'un ensemble de données

3
Historique
  • Dénombrement de populations humaines pour les
    besoins de la guerre et de l'impôt.
  • Véritable début 18ième siècle
  • Arithmétique politique connaissance d'un état
  • Première classification des causes de décès
  • Calcul des probabilités en France (B. Pascal, A.
    de Moivre, D. Bernouilli, P. S. de Laplace, K. F.
    Gauss, S. D. Poisson)
  • Statistiques mathématiques modernes 19ième siècle
    1853 premier congrès (A. Quetelet, C. Babbage)
  • Première moitié du 20ième siècle
  • Statistiques biologiques et psychologiques
  • Biométrie et Psychométrie
  • 1920 A. Fisher et les plans d'expérience
  • 1930 Econométrie, Contrôle de qualité industriel
  • 1940 Recherche opérationnelle
  • Deuxième moitié du 20ième siècle
  • Développement de l'informatique
  • Test de rang, test  exact 
  • Analyses multi variées ou multidimensionnelles
  • Analyse des données
  • Méthodes bayesiennes

4
La variabilité en santé
  • Variabilité de la mesure
  • Essayer de mesurer plusieurs(100) fois la taille
    en mm dun individu vous trouverez des valeurs
    différentes cependant dans labsolu un individu a
    une taille et une seule.
  • Variabilité inter individus
  • Si vous observez des personnes dans la rue vous
    constatez quelles nont pas toutes la même
    couleur de cheveux.
  • Variabilité intra individu
  • Si vous mesurez la tension artérielle dun
    individu à différents moments de la journée ou au
    même moment mais plusieurs jours de suite vous
    obtiendrez des valeurs différentes.
  • Du fait de la variabilité, on est dans le domaine
    de lincertain. Cette science de lincertain,
    cest le défi qua relevé la statistique en
    sappuyant sur le concept de probabilité.
  • Plutôt quune seule valeur, la prise en compte de
    lincertain permet de déterminer un intervalle à
    lintérieur duquel on a une certaine probabilité
    de se situer et donc un risque de ne pas y être.

5
Statistiques et santé
  • Description de l'état de santé d'une population
  • Causes de décès, morbidité
  • Évaluation d'un test ou d'un signe
  • Sémiologie quantitative spécificité,
    sensibilité, valeurs prédictives
  • Évaluation dun traitement
  • Essai thérapeutique
  • Recherche de facteurs étiologiques
  • Économie de la santé
  • Évaluation de la qualité et contrôle de
    production
  • .

6
Les différentes étapes de toute étude statistique
  • La collecte des données
  • Simple observation
  • Pas dintervention spécifique, recueil des
    données au fil de leau (dossiers médicaux)
  • Plan déchantillonnage
  • Expérimentation
  • C'est-à-dire en provoquant volontairement
    l'apparition de certains phénomènes contrôlés.
    Exemple administration dun médicament à un
    groupe et dun placébo (substance inactive) à un
    autre
  • Analyse statistique
  • Analyse "déductive" ou descriptive
  • a pour but de résumer et de présenter les données
    observées pour que l'on puisse en prendre
    connaissance facilement tableaux, graphiques
    ...
  • Analyse "inductive" ou inférence
  • permet d'étendre ou de généraliser dans certaines
    conditions les conclusions obtenues. Cette phase
    comporte certains risques d'erreur qui peuvent
    être mesurés en faisant appel à la théorie des
    probabilités.
  • Ces étapes ne sont pas indépendantes.
  • L'inférence nécessite des conditions
    particulières parfois très restrictives. Il en
    résulte que l'observation et l'expérimentation
    doivent être organisées de manière à répondre
    autant que possible à ces conditions.
  • Dossiers médicaux / cimetières de données

7
La collecte des données
  • Enquête
  • Ensemble des opérations qui ont pour but de
    collecter de façon organisée des informations
    relatives à un groupe d'individus ou d'éléments
    observés dans leur milieu ou leur cadre habituel.
  • Les individus (malades...) ou les éléments en
    question (séjour hospitalier, comprimés...) sont
    appelés unité de base ou unité statistique ou
    individu statistique. L'ensemble des unités
    auquel on s'intéresse est appelé population ou
    univers ou ensemble statistique.
  • Lorsque toutes les unités de la population sont
    observées l'enquête est exhaustive. Elle est
    encore appelée recensement.
  • Lorsqu'au contraire, une partie de la population
    est observée, l'enquête est dite partielle ou par
    échantillonnage. Elle est encore appelée sondage.
    La partie de la population observée constitue
    l'échantillon.
  • Les principaux problèmes qui se posent dans la
    préparation de l'enquête sont
  • la définition de l'unité de base et de la
    population
  • la définition des observations à réaliser
  • le choix d'une méthode de collecte des données
  • le choix d'une méthode d'échantillonnage
  • la détermination de la taille de l'échantillon

8
La définition de l'unité de base et de la
population
  • Problème complexe
  • Exemple recensement de la population humaine
  • Normalement basé sur l'étude individuelle de
    chacun des groupes de personnes qui vivent en
    commun dans un même logement ou ltlt sous un même
    toitgtgt.
  • Faut-il dans ce cas partir de la notion de
    famille ou de la notion de ménage ?
  • Comment faut-il considérer les communautés
    religieuses ou militaires ?
  • Comment faut-il traiter le cas des personnes qui,
    venues de l'extérieur, se trouvent dans le
    territoire au moment de l'enquête pour une
    période plus ou moins longue ?
  • Où faut-il comptabiliser les personnes qui ne
    vivent pas constamment au même endroit
    (étudiants...) ?
  • Exemple létude des malades par
    l intermédiaire de la description des séjours
    hospitaliers (PMSI)
  • L unité est-elle Le patient ? La maladie ? Le
    séjour ?
  • Le lecteur de tous rapports, mémoires ou
    publications doit s'interroger si des réponses
    précises à ce genre de questions ne sont pas
    fournies. Cest la première question à se poser
    dans une lecture darticle Quelle est la
    population cible ? Quelle est lunité prise en
    compte ?

9
Exemple
  • Cas N 1
  • On sintéresse au cancer du sein
  • Population cible Tous les cancers du sein
    survenant aussi bien chez lhomme que chez la
    femme
  • On ne prend en compte que des cancers du sein
    chez les femmes dont la mère a eu un cancer du
    sein
  • Population étudiée Les familles avec au moins
    une fille avec cancer chez la mère et une fille.
  • Unité de base le binôme mère/fille
  • gt on ne pourra pas tirer de cette étude des
    conclusions générales sur le cancer du sein.

10
La définition des observations et type de
variables
  • Les observations à réaliser doivent être
    parfaitement définies.
  • S'il s'agit d'observations qualitatives (résultat
    du classement de lobservation dans un groupe),
    tel que le diagnostic, l'état civil ou la
    profession, la signification exacte des termes
    employés devra être précisée de manière non
    ambiguë  Quest ce quune Blonde ? 
  • Intérêt des classifications établies avec leurs
    règles de codage (CIM, CCAM, CIH...)
  • S'il s'agit d'observations quantitatives
    (résultat dune mesure ou dun comptage), tel que
    la glycémie (taux de sucre dans le sang), la
    pression artérielle, la fréquence cardiaque...
    non seulement les termes devront être définis
    mais le mode de détermination des valeurs
    (comptage, mesure, estimation visuelle), et les
    unités de mesure devront être précisées ainsi que
    le domaine de validité des mesures.
  • Entre les deux les observations ordinales
    estimation d'un signe subjectif constipation,
    douleur.... rang dans une série  nombre
    d'étoiles du général...

11
Nature et enregistrement des données
  • Types de données
  • Données quantitatives
  • Données discontinues ou discrètes
  • Données continues
  • Données qualitatives
  • Données binaires
  • Données nominales
  • Données ordinales ou semi quantitatives

Grande richesse en information
Données quantitatives Données ordinales Données
qualitatives
Faible richesse en information
12
Données quantitatives
  • Données discontinues ou discrètes
  • Donnent lieu à des dénombrements ou comptages.
  • Les résultats s'expriment en nombres entiers non
    négatifs.
  • Exemples Nombre d'enfants dans une famille
    Nombre de désintégrations par minute...
  • Données continues
  • Donnent lieu à des mesures (mensurations). Elles
    soulèvent des problèmes de précision et de choix
    d'unité. Dans le domaine biologique il est
    illusoire, inutile et même dangereux d'utiliser
    plus de deux ou trois chiffres pour exprimer les
    résultats individuels.
  • Exemple Taille, Poids ...
  • En pratique, dans le cas des mesures, on effectue
    en réalité des observations discontinues en
    raison de la nécessité d'arrondir les données
    alors que celles-ci sont fondamentalement
    continues (mise en classe).
  • Permettent les calculs arithmétiques (moyenne,
    écart type...)

13
Données Qualitatives
  • Elles concernent des caractères ou des attributs
    que chacun des individus peut posséder ou non.
  • Codées avec des classes mutuellement exclusives
  • Type le plus simple variable binaire (sexe...)
  • Type nominal plus de deux classes
  • Problème de la classification utilisée
  • Exemple Classification internationale des
    maladies
  • Peut être décomposé en variables binaires
  • Couleur des cheveux (brun, blond, autre)
    décomposée en Brun (oui, non) Blond (oui, non)
    Autre (oui, non)
  • Ne permettent pas les calculs arithmétiques
    (moyenne) mais donnent lieu à des dénombrements
    (fréquences absolues et des pourcentages
    (fréquences relatives)

14
Données ordinales
  • Données qualitatives exprimant des niveaux
    différents ordonnés.
  • Exemple intensité d'une cuti (négatif, faiblement
    positif, positif, très positif)
  • Codées (0, , , ou 0, 1, 2 , 3)
  • Interprétation parfois délicate des calculs
    arithmétiques
  • Peu apte aux calcul. On préfère des données
    quantitatives.
  • Utilisation déchelles analogues visuelles
  • Très fréquentes en médecine et biologie

Je ne suis pas fatigué
Je suis très fatigué
15
La définition des observations
  • Il faut également préciser les circonstances
    d'observation date, heure, repos/effort...
  • La méthode de collecte des données repose sur un
    questionnaire.
  • Comment est-il rempli ?
  • Envoi postal
  • Enquêteur
  • Enquête téléphonique
  • Pour éviter les déboires et tester le
    questionnaire on fait une pré-enquête
  • Attention aux "non-réponses  (Données
    manquantes)
  • Biais de sélection

16
Enregistrement et traitement des données
  • Bordereau papier / Saisie informatique directe
  • Papier disponibilité, coût initial faible (mais
    il faudra faire la saisie)
  • Informatique possibilité de contrôle à la
    source vérification intra champ et inter
    champs, aide au codage.
  • Standardisation de la présentation
  • A partir de l'observation médicale on a les
    phases suivantes
  • Extraction et interprétation des signes et
    symptômes douleur thoracique caractéristique
    irradiant dans le bras gauche survenant au froid
    ou à l'effort gt ANGOR
  • Synthèse patient présentant une toux, des cors
    au pied, une élévation des enzymes cardiaques, un
    angor, un tabagisme, un infarctus du myocarde
  • Infarctus du myocarde avec élévation des enzymes
    cardiaques, angor...
  • Chez un fumeur qui tousse et qui a des cors au
    pied.
  • Hiérarchisation, Sélection
  • Traitement des données
  • Calculette (en voie de disparition)
  • Traitement informatique
  • Tableurs
  • Logiciels de statistique (EPIINFO, STATVIEW, SAS,
    SPPS, R ...)

17
Quelques méthodes d'échantillonnage
  • Attention la nature ne fait pas si bien les
    choses...
  • Si l'objet de l'étude est d'évaluer la proportion
    de myopes dans la population de Nancy, que penser
    d'une étude qui ne s'adresserait qu'aux
    secrétaires ?
  • Biais évident âge souvent jeune, sexe le plus
    souvent féminin, fonction pouvant affecter la
    vision
  • Echantillonnage aléatoire simple (simple random
    sampling)
  • Echantillonnage stratifié (stratified sampling)
  • A utiliser quand la population-parent (patients
    hospitalisés) est très hétérogène (service
    hospitalier et décès par exemple) et que l'on
    souhaite s'assurer que ses différentes
    composantes seront toutes bien représentées. La
    stratification peut apporter un gain de précision
    important par rapport à un échantillonnage
    aléatoire simple.
  • Echantillonnage à deux ou plusieurs niveaux
    (two-stage sampling, multistage sampling)
  • Tirage au sort des familles
  • Puis tirage au sort dans chaque famille de la
    personne enquêtée.
  • Méthode des quotas (quota) largement utilisée
    dans les sondages d'opinion.
  • Toutes les méthodes nécessitent une base
    d'échantillonnage

18
La taille de l'échantillon
  • La précision dans une enquête dépend
  • de la taille de l'échantillon
  • du caractère plus ou moins homogène ou hétérogène
    de la population parent (variabilité du phénomène
    étudiée)
  • La précision est d'autant meilleure que la taille
    de l'échantillon est importante et que la
    population est homogène.
  • gt Pas de recette pour fixer la taille d'un
    échantillon il est nécessaire d'avoir une idée
    suffisante de la précision souhaitée (risque
    accepté) et d'autre part du degré d'homogénéité
    (variabilité) de la population étudiée.
  • gt Attention la comparaison brute (de
    pourcentages par exemple) obtenue sur des
    échantillons de tailles très différentes aboutit
    à comparer des choses de précision très
    différente.
  • La taille peut être fixée en valeur absolue ou en
    valeur relative fraction de sondage

19
Au total un échantillon représentatif ?
  • Un échantillon est représentatif dune population
    si tous les individus de cette population ont la
    même probabilité (même chance) dêtre dans
    léchantillon. Si ce nest pas le cas on a une
    erreur systématique un biais.
  • Le tirage au sort donne un échantillon
    représentatif mais il nécessite de disposer dune
    base de sondage  listing  de la population
  • Exemple
  • Lors de la fabrication de comprimés, on utilise
    une machine avec 6 moules. Si lon constitue un
    échantillon en prenant 1 comprimé sur 6, on a un
    échantillon de comprimés issus du même moule donc
    non représentatif de la production.
  • Si lon sintéresse aux chutes en ne prenant que
    les malades hospitalisés on a un biais de
    recrutement les malades les plus graves décédés
    à leur domicile nous échappent comme les plus
    légers qui ne sont pas hospitalisés
  • La capacité de généraliser les résultats dépend
    de la représentativité de léchantillon.

20
L'expérimentation
  • Principes
  • L'expérimentation ou encore la réalisation
    d'essais suppose que l'apparition des faits que
    l'on désire étudier est volontairement provoquée,
    dans des conditions qu'on maîtrise au moins
    partiellement.
  • Plus efficace que l'observation
  • Protocole expérimental en vue d'affirmer la
    causalité
  • But de l'étude
  • Conditions de l'expérience
  • Définition des facteurs à étudier
  • Sous l'entière dépendance de l'expérimentateur
  • Qualitatifs (Nature du traitement)
  • Modalités définies a priori
  • Quantitatifs (Dose administrée)
  • Niveau progression arithmétique ou géométrique
  • Définition des unités expérimentales
  • Inclusion
  • Exclusion
  • Définition des observations à étudier
  • Critère de jugement
  • Définition du dispositif expérimental (Plan
    d'expérience)

21
Types denquêtes
  • En fonction de la collecte des données par
    rapport au début de létude
  • Travail sur des données déjà recueillies
    Enquête rétrospective
  • On veut étudier le cancer du sein chez la femme.
    On extrait à partir des fichiers des résumés
    standardisés de sortie de lannée 2003, les
    résumés correspondant aux femmes ayant un cancer
    du sein pour faire létude.
  • Recueil des données sur des individus ou
    phénomènes à venir Enquête prospective
  • On veut étudier le cancer du sein chez la femme,
    à partir du 1er janvier 2006, toutes femmes ayant
    un cancer du sein remplira (avec son accord
    conformément à la réglementation) un
    questionnaire.
  • Etude transversale/Longitudinale (suivi de
    cohorte-registre)

22
Types denquêtes
  • En fonction de lobjectif
  • Etude descriptive
  • Objectif Décrire un phénomène
  • par exemple estimée la fréquence des nouveaux cas
    (incidence) dinfarctus aigus du myocarde par
    année dans le département de MM
  • Recherche de facteur de risque
  • Objectif Rechercher les variables qui
    favorisent/protègent de lapparition dun
    phénomène (pronostic)
  • Par exemple est ce que la consommation
    doestroprogestatifs favorise les accidents
    vasculaires cérébraux
  • Evaluation dun traitement, dun test
    diagnostique
  • Objectif Décider si le traitement A est plus
    efficace que le traitement B
  • Par exemple entre la pyostatine et une
    ampicilline, quel est lantibiotique le plus
    efficace dans un érésipèle .
  • La causalité ne peut être affirmée que dans une
    expérimentation (gt étude prospective)
    comparative randomisée bien menée.
  • Application Lecture darticle

23
Objectifs poursuivis et type denquêtes
  • Type de protocole préférentiellement proposé pour
    une question donnée (à titre indicatif). Source
    ANES Janvier 2000

Remarque l'histoire naturelle d'une maladie
pourra être appréciée de la même manière que les
facteurs pronostiques. Le dépistage est apprécié
comme les tests diagnostiques.
24
Différents type de biais
  • Biais de caractérisation ou dinformation
  • Cest une erreur qui abouti à classer
    lobservation dans une mauvaise catégorie.
  • Exemple Dans le protocole denquête on a la
    question
  • Angine streptococcique Oui/Non sans préciser à
    quelle méthode on se réfère. Dans un des centres
    de lenquête on utilise le test rapide dans les
    autres la techniques classique de prélèvement de
    gorge De ce fait il y a biais de caractérisation
    certains patients seront étiquetés angine
    streptococcique dans un centre alors que sil
    sétait présenté dans un autre il ne laurait pas
    été.
  • Biais de sélection
  • Cest une erreur  dinclusion-exclusion  qui
    fait que les populations cibles et étudiées ou
    les groupes ne sont plus les mêmes ou
    comparables.
  • Etude expérimentale risque faible,
  • Etude longitudinale risque faible,
  • Etude cas-témoins risque élevé,
  • Etude transversale risque considérable
  • Facteur de confusion - Paradoxe de Simpson
  • Un tiers facteurs (normalement inconnu) abouti à
    comparer des populations hétérogènes.

25
Facteur de confusion - Paradoxe de Simpson
  • Dans cet exemple, les deux hôpitaux
  • ont des durés moyennes de séjours identiques.
  • Mais on compare des recrutements différents.
  • A pathologie identique, lhôpital 1 a toujours
    des durées de séjour plus courtes.
  • Cette notion connue sous le nom de paradoxe de
    Simpson, peut aboutir soit à masquer une
    différence soit au contraire à montrer une
    différence alors que la réalité est tout autre ou
    à faire croire à linfluence dun facteur alors
    que cest un autre qui est impliqué.
  • Dès que les groupes à comparer sont hétérogènes,
    on y est exposé. Létude par sous groupe ou
    dautres méthodes (stratification) permettent de
    maîtriser cette difficulté.

Mois de JanvierEtab. Lits Ent J
Réal. DMS Hôpital 1 1 000 8 600 8,60 HTA 100 50
0 5,00 Arythmie 300 2 100 7,00 AVC 600 6
000 10,00 Hôpital 2 1 000 8
600 8,60 HTA 600 4 000 6,67 Arythmie 300 2
200 7,33 AVC 100 2 300 23,00
26
Exercice
  • 1)
  • Dans un hôpital, on a établi un registre au
    niveau de laccueil dont on reproduit ci-dessous
    certains éléments.
  • Nom du patient Sexe Date Date Date
  • de naissance d'entrée de sortie
  • Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/
    00
  • Albert Maurice Masculin 24/06/19 02/03/00 12/03/
    00
  • Calvari Emilie Femme 24/11/59 03/03/00 07/03/00
  • Calvari Emilie Féminin 24/11/59 10/03/00 18/03/0
    0
  • Dupond Marcel Homme 10/02/48 17/03/00 17/05/00
  • Dupond Marcel Masculin 10/02/48 25/03/00 28/03/0
    0
  • A) Les données sont elles correctes ?
  • B) Comment coder le sexe ?
  • C) Combien a-t-on dhospitalisations, de
    patients ?
  • D) Comment calculer la durée de séjour ?
  • E) Quel est le pourcentage de femme ?
  • 2)
  • Peut on utiliser ce registre pour connaître lâge
    moyen des personnes habitant le bassin de
    population drainé par cet hôpital ?

27
La statistique descriptive
  • But présenter les données pour que l'on puisse
    en prendre connaissance facilement
  • peut concerner
  • une variable à la fois statistique à une
    dimension
  • deux variables à la fois statistique à deux
    dimensions
  • plus de deux variables à la fois statistique
    multidimensionnelle
  • comporte
  • les tableaux distributions de fréquences
  • les diagrammes graphiques
  • les paramètres statistiques réduction des
    données à quelques valeurs numériques
    caractéristiques

28
Les distributions de fréquences
  • Séries statistiques
  • simple énumération ou dénombrement des
    observations
  • peut être ordonnée (variable quantitative)
  • le nombre total d'observations, appelé effectif
    de l'échantillon, est noté N
  • Distributions non groupées
  • Lorsque les observations sont nombreuses, une
    même valeur peut être observée plusieurs fois.
  • On utilise xi pour représenter les valeurs
    différentes, son nombre doccurrences est noté ni
    et est appelé fréquence absolue p représente le
    nombre de valeurs différentes que l'on a observé.
  • ni/N est appelé fréquence relative.
  • En cas de variable quantitative, on ordonne les
    xi et les fréquences absolues ou relatives
    peuvent être additionnées de proche en proche de
    manière à obtenir les fréquences cumulées notées
    Ni et Fi

xi ni fi Ni Fi x1 172 3 0,015 3 0,015 x2
175 15 0,075 18 0,09 x...
n... f... xp np fp N 1 N200 S1p ni 1 S1p
fi
29
Les distributions groupées
  • Variables quantitatives
  • Quand le nombre de valeurs distinctes est élevé,
    on condense les tableaux statistiques en groupant
    les observations en classes. On obtient ainsi les
    distributions groupées.
  • Les classes sont mutuellement exclusives. Leurs
    valeurs extrêmes sont appelées bornes des
    classes.
  • L'amplitude de la classe encore appelée
    intervalle ou module de classe correspond à
    l'écart entre la borne supérieure et la borne
    inférieure.
  • Le point central ou encore point médian est situé
    à mi chemin entre les bornes.
  • L'intervalle de classe est généralement constant,
    toutefois, on utilise parfois une amplitude
    variable notamment pour les classes des valeurs
    extrêmes.
  • Dans certains cas la limite inférieure de la
    première classe ou supérieure de la dernière
    classe n'est pas précisée. On parle de classes
    ouvertes. A éviter !...
  • En cas de classes d'amplitudes différentes, la
    densité de fréquence ni/amplitude classei permet
    de comparer les fréquences d'une classe à
    l'autre.
  • Toutes les distributions relatives à des
    variables continues doivent être considérées
    comme des distributions groupées, puisque
    l'infinité de valeurs admissibles est condensée
    en un nombre fini de mesures en fonction de la
    précision de la méthode de mesure utilisée.

30
Distribution groupée exemple
Classe Ci ni fi Ni Fi 140-160 150 10 0,05 10 0,
05 160-165 162,5 20 0,10 30 0,15 165-170 167
,5 30 0,15 60 0,30 170-175 172,5 45 0,225 105 0
,525 175-180 177,5 40 0,20 145 0,725 180-185
182,5 35 0,175 180 0,90 185-190 187,5 15 0,075
195 0,975 190-200 195 5 0,025 200 1,0
N200 S 1k fi 1
k nombre de classes
31
Les graphiques
  • Diagrammes sur distributions non cumulées
  • Diagramme en bâtons
  • Distribution non groupée
  • On trace parallèlement à l'axe des ordonnées, en
    regard des xi qui sont portés en abscisse, un
    segment de longueur proportionnel à ni
  • Polygone des fréquences
  • Ligne brisée joignant les bâtons
  • Fréquences absolues / fréquences relatives
  • Histogramme
  • Distribution groupée
  • Composé de rectangles ayant comme base
    l'intervalle de classe et comme hauteur la
    densité de fréquence (ni/Di). La surface est
    proportionnelle à ni.
  • Diagramme sectoriel
  • Variable qualitative
  • Angle au centre proportionnel à ni (ou fi)

32
Les graphiques
  • Diagrammes sur distributions cumulées
  • Polygone des fréquences
  • sur distribution non groupée escalier
  • sur distribution groupée ligne brisée
  • Histogrammes
  • Principaux aspects de la distribution
  • Symétrie - Aplatissement
  • Distribution
  • en cloche
  • en J
  • en U
  • à plusieurs bosses
  • ...
  • Autres représentations
  • Attention Excel ne fait pas dhistogramme

33
Polygone des fréquences Exemple
Nombre de colonies bactériennes/dm2 ni1 52 73
154 255 356 457 328 289 1610 1211 312 1
1
2
3
4
5
6
7
8
9
10
11
12
Nombre de colonies bactériennes/dm2
34
Histogramme exemple
Classe ni Densité (10)140-160 10
5160-165 20 40165-170 30 60170-175 45 90
175-180 40 80180-185 35 70185-190 15 301
90-200 5 5
140
160
170
180
190
200
35
Diagramme sectoriel exemple
GROUPE ni A 35B 9O 40AB 16
36
Les paramètres statistiques
  • Paramètres de position
  • Valeurs centrales
  • Moyenne arithmétique
  • Les autres moyennes
  • géométrique
  • harmonique
  • quadratique
  • Médiane
  • Mode
  • Médiale
  • Les fractiles
  • Quartiles
  • Percentiles
  • Paramètres de dispersion
  • Amplitude ou étendue
  • Ecart interquartiles
  • Variance, Ecart type
  • Coefficient de variation
  • Paramètre d'aplatissement et de symétrie

37
La moyenne arithmétique
  • Appelée moyenne notée x
  • Paramètre central qui concerne bien évidemment
    uniquement des variables quantitatives.
  • Calculable quelque soit la loi qui régit la
    distribution.
  • Somme des valeurs (T) divisée par le nombre de
    mesures (N).
  • Suivant la forme de présentation des
    observations, différentes formules de calcul
    peuvent être employées.
  • Propriétés
  • Centre de gravité de la distribution.
  • La somme des écarts à la moyenne est nulle.
  • Affectée par les changements de variable.
  • Si y ax b on a y ax b
  • La moyenne contrairement à la médiane est très
    sensible aux valeurs extrêmes.
  • La moyenne d'un groupe résultant de la fusion
    d'autres groupes n'est égale à la moyenne des
    moyennes que si tous les groupes ont le même
    effectif.
  • Si la distribution de la variable suit une loi
    normale, la moyenne et la médiane et le mode sont
    confondus.
  • La distribution des moyennes de petits
    échantillons (Nlt30) indépendants tirés de la
    même population suit une loi normale si la
    distribution de la variable est normale.
  • Au delà de 30, la distribution des moyennes suit
    une loi normale sans condition sur la
    distribution de la variable.
  • La moyenne de l'échantillon est le meilleur
    estimateur de la moyenne de la population.

38
La moyenne formules
  • Somme des valeurs / Nombre d'observations

N Nombre total de mesures, p Nombre de
valeurs différentes observées, ni Nombre
d'occurrences de chaque valeur observée. fi
pourcentage de la valeur observée i g nombre de
groupes
39
La moyenne
  • Exemples

Soit la série statistique correspondant aux
tailles de 6 étudiants 160, 170, 180, 180,
190, 200 N 6, T 1080, x 1080/6 180
Soit la distribution suivante
Nombre de colonies bactériennes/dm2 ni nixi1 5
52 7 143 15 454 25 1005 35 1756 45 2707 32 2
248 28 2249 16 14410 12 12011 3 3312 1 12p
12 N 224 T 1 366 x 1 366 / 224 6,098
40
Les autres valeurs centrales
  • Les autres moyennes
  • Moyenne géométrique d'une série de valeur
    positives est la racine Nième du produit des N
    valeurs. Elle est toujours inférieure ou égale à
    la moyenne arithmétique.
  • Moyenne harmonique d'une série de valeurs
    positives est égale à l'inverse de la moyenne des
    inverses.
  • Moyenne quadratique est la racine carré de la
    moyenne arithmétique des carrés.

41
Les autres valeurs centrales
  • La médiane notée x (tilde) est telle que la
    moitié des observations lui sont inférieure (ou
    égale) et la moitié supérieure (ou égale) xi
    tel que Fi 0,5.
  • Sur les distributions symétriques (normales par
    exemple) la médiane est égale à la moyenne et au
    mode.
  • Paramètre peu sensible aux valeurs extrêmes
  • Sur une distribution non groupée
  • Si N impair, la médiane est l'observation de rang
    (N1)/2
  • Si N est pair, tout nombre entre xN/2 et xN/21
    convient. On prend la moyenne (pondérée en cas
    d'ex aequo) entre ces deux valeurs.
  • Sur une distribution groupée, la classe médiane
    est celle qui contient la médiane.
  • Détermination graphique
  • En admettant que les observations soient
    réparties uniformément dans cette classe, on a

x

limite inférieure de la classe contenant la
médiane
i
D

amplitude de la classe contenant la médiane
i
f

fréquence relative de la classe contenant la
médiane
i
F
(
x
)

fréquence relative cumulée de la classe
i
0
,
5
-
F
(
x
)

x


x

D

i
i
i
f
i
42
Autres valeurs centrales et Fractiles
  • Valeurs centrales - suite
  • Mode encore appelé valeur dominante
  • Correspond à la valeur la plus fréquente. xi
    correspondant au ni (ou fi)maximum.
  • Dans les distributions unimodales symétriques,
    mode médiane et moyenne sont confondus
    (distribution normale par exemple)
  • Médiale est la valeur telle que la somme des
    observations qui lui sont inférieures et la somme
    des observations qui lui sont supérieure sont
    égale.
  • Fractiles
  • Quartiles
  • Q1 xi tel que Fi 0,25 gt 1/4 des valeurs lui
    sont inférieures, 3/4 lui sont supérieures.
  • Q2 Médiane
  • Q3 xi tel que Fi 0,75 gt 3/4 des valeurs lui
    sont inférieures, 1/4 lui sont supérieures.
  • Détermination graphique
  • interpolation (cf médiane)
  • Percentiles
  • 10ième percentile xi tel que Fi 0,10

43
Paramètres de dispersion
  • Amplitude ou étendue
  • Ecart entre la valeur de l'observation maximale
    et celle de l'observation minimale.
  • Non définie pour les distributions groupées
  • On montre que l'écart type est toujours inférieur
    ou égal à la moitié de l'amplitude.
  • Dans les distributions unimodales en cloche
    l'écart type est égal au tiers de l'amplitude
    pour N de l'ordre de 10, au quart de l'amplitude
    pour N entre 15 et 50, au cinquième pour des
    effectifs de 50 à 200 et au sixième pour des
    effectifs de 200 à 1000.
  • Ecart interquartiles
  • Q3 -Q1
  • Englobe 50 des observations
  • On utilise parfois l'écart semi-interquartile
    (Q3-Q1)/2
  • Donne naissance à la représentation en  box
    plot 

44
Paramètres de dispersion Variance, Écart type
  • Variance et écart type
  • La variance (variance) d'une série ou d'une
    distribution de fréquence est la moyenne
    arithmétique des carrés des écarts à la moyenne.
  • C'est par rapport à la moyenne que la somme des
    carrés des écarts est la plus faible.
  • La variance de l'échantillon est notée S2. Ce
    n'est pas un bon estimateur de la variance de la
    population notée s2.
  • Lestimation de la variance est notée s2.
  • Le numérateur de la variance est appelé somme des
    carrés des écarts et noté SCE.
  • L'écart type est la racine carré de la variance.
    On l'appelle également déviation standard
    (standard deviation). Il est dans l'unité de la
    variable.
  • Variance et écart type sont indépendants des
    translations (changement d origine) mais pas des
    multiplications (changement d'unité).
  • Si y a x b, on a Sy a Sx
  • Pour les distributions en cloche, la variance
    calculée à partir des classes est surestimée,
    certain réalise la correction de Sheppard.
  • gt Ne pas utiliser de distribution groupée
  • Coefficient de variation (cv)
  • Cest le rapport de lécart type divisé par la
    moyenne
  • Écart type de la moyenne
  • Cf distribution des moyennes de plusieurs
    échantillons


45
Variance et écart type calcul
  • Attention aux notations

46
Paramètres de dispersion Coefficient de
variation
  • Le coefficient de variation CV (Coefficient of
    variation, percentage standard deviation)
  • CV est le rapport écart type divisé par la
    moyenne.
  • CV est un nombre pur, sans unités.
  • CV est totalement indépendant des unités.
  • Le CV permet de comparer la variabilité de
    distributions de variables qui ne sont pas dans
    les mêmes unités.

47
Paramètres d'aplatissement et de symétrie
  • Moments centrés d'ordre k
  • moyenne arithmétique des écarts à la moyenne
    élevée à la puissance k.
  • si k pair gt paramètre de dispersion
  • si k impair gt paramètre de symétrie
  • Coefficient de Pearson et de Fisher
  • b1 pour caractériser la symétrie de la courbe b2
    pour caractériser l'aplatissement
  • b1 M32 / M23 est voisin de 0 si la
    distribution est symétrique
  • b2 M4 / M22 est voisin de 3 si la
    distribution suit une loi normale (plus aplatie
    qu'elle si b2 lt 3)
  • cf Loi Normale
  • Skewness et kurtosis

48
Statistique descriptive à 2 dimensions
  • Objectif mettre en évidence les relations qui
    existent entre deux séries d'observations.
  • Situations
  • Nature des variables les deux variables peuvent
    être quantitatives, qualitatives ou l'une
    quantitative et l'autre qualitative.
  • Séries appariées même variable mesurée dans
    deux circonstances
  • Avant - Après traitement
  • Cas - Témoins on apparie un témoin dépourvu de la
    maladie que l'on veut étudier sur différents
    points que l'on sait lier au phénomène étudié
    (par exemple pour une étude de la mortalité on
    apparie sur âge, sexe, ...)
  • Séries non appariées
  • Même variable mesurée dans des groupes différents
  • Deux variables mesurées chez le même individu par
    exemple poids et taille poids et couleur des
    yeux...

49
Tableaux statistiques à deux dimensions et
représentation graphique
  • Séries
  • Distribution de fréquence
  • Table de contingence

Poids Taille 70 170 80 180 65 165 75 175 90
182 73 170 60 162 68 165 83 180 ... ...
Poids
Taille
Poids Taille 60 65 68 70 73 75 80 83 90 Tot.
162 1 1 165 1 1 2 170 1 1 2
175 1 1 180 1 1 2 182 1 1 T
ot. 1 1 1 1 1 1 1 1 1 9
50
Fréquences relatives
  • Nombre de mesure totale N
  • Total de chaque ligne Li
  • Total de chaque colonne Ci
  • Effectif d'une cas nij
  • Fréquences relatives
  • nij / Li
  • nij / Cj
  • nij / N
  • Li / N
  • Cj / N

Cheveux Yeux Blonds Bruns Autres Tot.
(Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot.
(Cj) 110 100 90 300
300 Nombre total de mesures 100 Nombre
d'individus ayant les yeux clairs 110 Nombre
d'individus ayant les cheveux blonds 50 / 300
d'individus ayant les cheveux blonds et les yeux
clairs 50 / 110 d'individus parmi les blonds
ayant les yeux clairs 50 / 100 d'individus
parmi les yeux clairs ayant les cheveux blonds
51
Covariance
  • Variable quantitative
  • cov (x,y) moyenne des produits des écarts à la
    moyenne. 1/N S1N(xi-x)(yi-y) pour i 1 à N
  • si x' axb et y'cy d,
  • on a Cov(x'y') ac Cov (x,y)
  • toujours inférieure ou égale au produit des écart
    types
  • positive "nuage" croissant
  • négative "nuage" décroissant
  • calcul

T T
N
S
x
y
x y -
N
i
i
i 1
Cov (x,y)
N
i 1
sert au calcul du coefficient de corrélation r.
52
Deux caractères qualitatifs binaires
  • Tableau de contingence à 4 cases
  • Fréquences relatives
  • Cancer chez les éthyliques R1 73/1000
  • Cancer chez les non éthyliques R0 37/1000
  • Risque relatif
  • RR R1/R0 0,073/0,037 1,97
  • Cote (Odds) (cf course de chevaux)
  • Chez les éthyliques R1/(1-R1) 0,79
  • Chez les non éthyliques R0/(1-R0) 0,038

53
Quelques indicateurs statistiques classiques des
établissements de santé
  • La SAE
  • Enquête annuelle déclarative établie par tous les
    établissements français
  • Décrit essentiellement les moyens
  • Décrit partiellement lactivité, plus
    particulièrement certaines activités soumises à
    autorisation (IVG,)
  • Quelques difficultés
  • Combien de lits équipent mon établissement ?
  • Lits autorisés
  • Lits installés
  • Lits ouverts à une date donnée
  • Lits ouverts en moyenne sur lannée
  • Combien dentrées entre le 1er janvier et le 31
    décembre inclus ? (4)
  • Combien de sorties dans la même période ? (5)
  • Combien de malades présents dans la période ? (6)
  • Combien de journées ?
  • Des séjours des malades entrés dans la période
    (80)
  • Des parties de séjours des malades présents dans
    la période (73)
  • Des malades sortis dans la période (72)

54
Quelques indicateurs statistiques classiques des
établissements de santé
  • La durée moyenne de séjour pour une période
    donnée
  • SAE
  • Le nombre de journées est celui des malades
    présents auquel on ajoute le nombre de décès
    (hospitalisation complète)
  • Le nombre de malades est le nombre dentrées
    (somme des entrées directes et des entrées par
    mutation)
  • DMS 73/4 18,25 jours (si pas de décès)
  • PMSI
  • Le nombre de journées est celui des malades
    sortis pendant la période
  • Le nombre de malades est le nombre de malades
    sortis
  • DMS 72/5 14,4 jours

55
Quelques indicateurs statistiques classiques des
établissements de santé
  • Taux doccupation des lits
  • Le taux doccupation des lits mesure
    lutilisation des moyens mis à la disposition
    dun établissement
  • Il existe une norme fixée au niveau national 85
    en médecine et en chirurgie, 80 en obstétrique

56
Quelques indicateurs statistiques classiques des
établissements de santé
  • Comment compter le personnel ?
  • On différencie
  • Le nombre de personnes dans les différentes
    catégories professionnelles
  • Employés, médecins, kinésithérapeutes.
  • Le nombre déquivalents temps plein (ETP) pour
    pouvoir tenir compte du travail à temps partiel.
    Ce nombre représente la  force  de travail.
  • Exemple
  • Dans un CHU, on a 150 médecins hospitalo-universit
    aires qui travaillent à mi-temps à lhôpital, 200
    praticiens qui travaillent à temps plein et 50
    praticiens qui travaillent à 80. Quel est le
    nombre déquivalents temps plein de ce CHU ?
  • ETP 150 0,5 200 50 0,8
  • 75 200 40
  • 315

57
Biais et risques en épidémiologie
  • Voici le tableau résumant une enquête sur le
    cancer du poumon sur un échantillon représentatif
  • La fréquence du cancer du poumon est de 110/2000
    0,055
  • Mais
  • Elle est de 73/1000 0,073 chez les éthyliques
  • Elle est de 37/1000 0,037 chez les non
    éthyliques
  • Un éthylique a 0,073/0,037 1,97 plus de
     chances  davoir un cancer du poumon. Le
    risque relatif RR 1,97.
  • Un test statistique du Khi 2 12,5 DDL 1 montre
    que la différence est très significative
  • Cette étude indique une association statistique
    entre l'éthylisme et cancer du poumon. Mais les
    résultats peuvent être expliqués par des biais de
    confusion.

58
Biais et risque en épidémiologie
  • Les facteurs de confusion potentiels sont le
    tabagisme et le sexe
  • Un facteur de confusion est simultanément facteur
    de risque pour la maladie et une variable associé
    à l'exposition
  • La première variable à considérer est le
    "tabagisme"

59
Biais et risques en épidémiologie
  • Chez les fumeurs, la fréquence du cancer est de
    100/1000 0,1 contre 10/1000 0,01 RR 10
  • Le tabagisme est un facteur de risque pour le
    cancer du poumon, car les fumeurs ont 10 fois
    plus de risque de développer un cancer du poumon
    que les non-fumeurs.
  • Quel est le RR d'être alcoolique pour les fumeurs
    par rapport aux non fumeurs ?RR 700/1000 /
    300/1000 2,3
  • Il existe une association entre le tabagisme et
    l'éthylisme. Les fumeurs ont 2,3 fois plus de
    chance d'être alcooliques que les non-fumeurs.
  • Le tabagisme est un facteur de confusion dans
    cette étude, les données doivent être analysées
    en tenant compte de cette variable.
  • Calculer le RR (éthylisme) dans chaque strate
    ?Tabagisme RR 70/700 / 30/300 1Tabagisme -
    RR 3/300 / 7/700 1
  • L'association entre éthylisme et cancer du poumon
    dans les données brutes (RR 1,97) est le
    produit d'un biais de confusion. Car à
    l'intérieur des différentes strates du
    "tabagisme" il n'existe aucune association entre
    éthylisme et le cancer du poumon RR 1.
  • Exemple tiré du cours du Dr Kaba KOUROUMA,
    http//www.santetropicale.com/guinee/cours.htm
Write a Comment
User Comments (0)
About PowerShow.com