Title: Statistiques
1Statistiques
- Organisation du cours
- 1er semestre 2005/2006 Pr. KOHLER
(kohler_at_medecine.uhp-nancy.fr) - Statistiques descriptives
- Généralités, Variabilité
- La collecte des données
- Types de variables
- Méthodes déchantillonnage Etudes descriptives
observationnelles, expérimentations, types
denquêtes - Les biais Biais de caractérisation ou
dinformation, biais de sélection, facteur de
confusion - Paradoxe de Simpson
- Les tableaux et représentations graphiques
- Les paramètres statistiques
- Statistiques descriptives à 2 dimensions
Probabilités - Probabilités et probabilités conditionnelles
- Définition
- Probabilités conditionnelles
- Théorème de Bayes
- Calcul des taux de survie
- Risque relatif et odds ratio
- Lois de probabilité
2Statistiques Généralités
- Introduction
- Statistiques (latin status état)
- Ensemble cohérent de données numériques
relatives à un groupe d'individus. - Statistiques démographiques
- Statistiques annuelles des établissements de
santé - Statistiques du chômage
- Statistiques de santé
- Etat de santé de la population
- Activité Statistiques dactivité hospitalière
(SAE), PMSI -
- Rôle de lINSEE
- Statistique
- Ensemble des méthodes qui permettent de
rassembler et d'analyser les données numériques - Paramètre tel que moyenne... calculé à partir
d'un ensemble de données
3Historique
- Dénombrement de populations humaines pour les
besoins de la guerre et de l'impôt. - Véritable début 18ième siècle
- Arithmétique politique connaissance d'un état
- Première classification des causes de décès
- Calcul des probabilités en France (B. Pascal, A.
de Moivre, D. Bernouilli, P. S. de Laplace, K. F.
Gauss, S. D. Poisson) - Statistiques mathématiques modernes 19ième siècle
1853 premier congrès (A. Quetelet, C. Babbage) - Première moitié du 20ième siècle
- Statistiques biologiques et psychologiques
- Biométrie et Psychométrie
- 1920 A. Fisher et les plans d'expérience
- 1930 Econométrie, Contrôle de qualité industriel
- 1940 Recherche opérationnelle
- Deuxième moitié du 20ième siècle
- Développement de l'informatique
- Test de rang, test exact
- Analyses multi variées ou multidimensionnelles
- Analyse des données
- Méthodes bayesiennes
4La variabilité en santé
- Variabilité de la mesure
- Essayer de mesurer plusieurs(100) fois la taille
en mm dun individu vous trouverez des valeurs
différentes cependant dans labsolu un individu a
une taille et une seule. - Variabilité inter individus
- Si vous observez des personnes dans la rue vous
constatez quelles nont pas toutes la même
couleur de cheveux. - Variabilité intra individu
- Si vous mesurez la tension artérielle dun
individu à différents moments de la journée ou au
même moment mais plusieurs jours de suite vous
obtiendrez des valeurs différentes. - Du fait de la variabilité, on est dans le domaine
de lincertain. Cette science de lincertain,
cest le défi qua relevé la statistique en
sappuyant sur le concept de probabilité. - Plutôt quune seule valeur, la prise en compte de
lincertain permet de déterminer un intervalle à
lintérieur duquel on a une certaine probabilité
de se situer et donc un risque de ne pas y être.
5Statistiques et santé
- Description de l'état de santé d'une population
- Causes de décès, morbidité
- Évaluation d'un test ou d'un signe
- Sémiologie quantitative spécificité,
sensibilité, valeurs prédictives - Évaluation dun traitement
- Essai thérapeutique
- Recherche de facteurs étiologiques
- Économie de la santé
- Évaluation de la qualité et contrôle de
production - .
6Les différentes étapes de toute étude statistique
- La collecte des données
- Simple observation
- Pas dintervention spécifique, recueil des
données au fil de leau (dossiers médicaux) - Plan déchantillonnage
- Expérimentation
- C'est-à-dire en provoquant volontairement
l'apparition de certains phénomènes contrôlés.
Exemple administration dun médicament à un
groupe et dun placébo (substance inactive) à un
autre - Analyse statistique
- Analyse "déductive" ou descriptive
- a pour but de résumer et de présenter les données
observées pour que l'on puisse en prendre
connaissance facilement tableaux, graphiques
... - Analyse "inductive" ou inférence
- permet d'étendre ou de généraliser dans certaines
conditions les conclusions obtenues. Cette phase
comporte certains risques d'erreur qui peuvent
être mesurés en faisant appel à la théorie des
probabilités. - Ces étapes ne sont pas indépendantes.
- L'inférence nécessite des conditions
particulières parfois très restrictives. Il en
résulte que l'observation et l'expérimentation
doivent être organisées de manière à répondre
autant que possible à ces conditions. - Dossiers médicaux / cimetières de données
7La collecte des données
- Enquête
- Ensemble des opérations qui ont pour but de
collecter de façon organisée des informations
relatives à un groupe d'individus ou d'éléments
observés dans leur milieu ou leur cadre habituel. - Les individus (malades...) ou les éléments en
question (séjour hospitalier, comprimés...) sont
appelés unité de base ou unité statistique ou
individu statistique. L'ensemble des unités
auquel on s'intéresse est appelé population ou
univers ou ensemble statistique. - Lorsque toutes les unités de la population sont
observées l'enquête est exhaustive. Elle est
encore appelée recensement. - Lorsqu'au contraire, une partie de la population
est observée, l'enquête est dite partielle ou par
échantillonnage. Elle est encore appelée sondage.
La partie de la population observée constitue
l'échantillon. - Les principaux problèmes qui se posent dans la
préparation de l'enquête sont - la définition de l'unité de base et de la
population - la définition des observations à réaliser
- le choix d'une méthode de collecte des données
- le choix d'une méthode d'échantillonnage
- la détermination de la taille de l'échantillon
8La définition de l'unité de base et de la
population
- Problème complexe
- Exemple recensement de la population humaine
- Normalement basé sur l'étude individuelle de
chacun des groupes de personnes qui vivent en
commun dans un même logement ou ltlt sous un même
toitgtgt. - Faut-il dans ce cas partir de la notion de
famille ou de la notion de ménage ? - Comment faut-il considérer les communautés
religieuses ou militaires ? - Comment faut-il traiter le cas des personnes qui,
venues de l'extérieur, se trouvent dans le
territoire au moment de l'enquête pour une
période plus ou moins longue ? - Où faut-il comptabiliser les personnes qui ne
vivent pas constamment au même endroit
(étudiants...) ? - Exemple létude des malades par
l intermédiaire de la description des séjours
hospitaliers (PMSI) - L unité est-elle Le patient ? La maladie ? Le
séjour ? - Le lecteur de tous rapports, mémoires ou
publications doit s'interroger si des réponses
précises à ce genre de questions ne sont pas
fournies. Cest la première question à se poser
dans une lecture darticle Quelle est la
population cible ? Quelle est lunité prise en
compte ?
9Exemple
- Cas N 1
- On sintéresse au cancer du sein
- Population cible Tous les cancers du sein
survenant aussi bien chez lhomme que chez la
femme - On ne prend en compte que des cancers du sein
chez les femmes dont la mère a eu un cancer du
sein - Population étudiée Les familles avec au moins
une fille avec cancer chez la mère et une fille. - Unité de base le binôme mère/fille
- gt on ne pourra pas tirer de cette étude des
conclusions générales sur le cancer du sein.
10La définition des observations et type de
variables
- Les observations à réaliser doivent être
parfaitement définies. - S'il s'agit d'observations qualitatives (résultat
du classement de lobservation dans un groupe),
tel que le diagnostic, l'état civil ou la
profession, la signification exacte des termes
employés devra être précisée de manière non
ambiguë Quest ce quune Blonde ? - Intérêt des classifications établies avec leurs
règles de codage (CIM, CCAM, CIH...) - S'il s'agit d'observations quantitatives
(résultat dune mesure ou dun comptage), tel que
la glycémie (taux de sucre dans le sang), la
pression artérielle, la fréquence cardiaque...
non seulement les termes devront être définis
mais le mode de détermination des valeurs
(comptage, mesure, estimation visuelle), et les
unités de mesure devront être précisées ainsi que
le domaine de validité des mesures. - Entre les deux les observations ordinales
estimation d'un signe subjectif constipation,
douleur.... rang dans une série nombre
d'étoiles du général...
11Nature et enregistrement des données
- Types de données
- Données quantitatives
- Données discontinues ou discrètes
- Données continues
- Données qualitatives
- Données binaires
- Données nominales
- Données ordinales ou semi quantitatives
Grande richesse en information
Données quantitatives Données ordinales Données
qualitatives
Faible richesse en information
12Données quantitatives
- Données discontinues ou discrètes
- Donnent lieu à des dénombrements ou comptages.
- Les résultats s'expriment en nombres entiers non
négatifs. - Exemples Nombre d'enfants dans une famille
Nombre de désintégrations par minute... - Données continues
- Donnent lieu à des mesures (mensurations). Elles
soulèvent des problèmes de précision et de choix
d'unité. Dans le domaine biologique il est
illusoire, inutile et même dangereux d'utiliser
plus de deux ou trois chiffres pour exprimer les
résultats individuels. - Exemple Taille, Poids ...
- En pratique, dans le cas des mesures, on effectue
en réalité des observations discontinues en
raison de la nécessité d'arrondir les données
alors que celles-ci sont fondamentalement
continues (mise en classe). - Permettent les calculs arithmétiques (moyenne,
écart type...)
13Données Qualitatives
- Elles concernent des caractères ou des attributs
que chacun des individus peut posséder ou non. - Codées avec des classes mutuellement exclusives
- Type le plus simple variable binaire (sexe...)
- Type nominal plus de deux classes
- Problème de la classification utilisée
- Exemple Classification internationale des
maladies - Peut être décomposé en variables binaires
- Couleur des cheveux (brun, blond, autre)
décomposée en Brun (oui, non) Blond (oui, non)
Autre (oui, non) - Ne permettent pas les calculs arithmétiques
(moyenne) mais donnent lieu à des dénombrements
(fréquences absolues et des pourcentages
(fréquences relatives)
14Données ordinales
- Données qualitatives exprimant des niveaux
différents ordonnés. - Exemple intensité d'une cuti (négatif, faiblement
positif, positif, très positif) - Codées (0, , , ou 0, 1, 2 , 3)
- Interprétation parfois délicate des calculs
arithmétiques - Peu apte aux calcul. On préfère des données
quantitatives. - Utilisation déchelles analogues visuelles
- Très fréquentes en médecine et biologie
Je ne suis pas fatigué
Je suis très fatigué
15La définition des observations
- Il faut également préciser les circonstances
d'observation date, heure, repos/effort... - La méthode de collecte des données repose sur un
questionnaire. - Comment est-il rempli ?
- Envoi postal
- Enquêteur
- Enquête téléphonique
- Pour éviter les déboires et tester le
questionnaire on fait une pré-enquête - Attention aux "non-réponses (Données
manquantes) - Biais de sélection
16Enregistrement et traitement des données
- Bordereau papier / Saisie informatique directe
- Papier disponibilité, coût initial faible (mais
il faudra faire la saisie) - Informatique possibilité de contrôle à la
source vérification intra champ et inter
champs, aide au codage. - Standardisation de la présentation
- A partir de l'observation médicale on a les
phases suivantes - Extraction et interprétation des signes et
symptômes douleur thoracique caractéristique
irradiant dans le bras gauche survenant au froid
ou à l'effort gt ANGOR - Synthèse patient présentant une toux, des cors
au pied, une élévation des enzymes cardiaques, un
angor, un tabagisme, un infarctus du myocarde - Infarctus du myocarde avec élévation des enzymes
cardiaques, angor... - Chez un fumeur qui tousse et qui a des cors au
pied. - Hiérarchisation, Sélection
- Traitement des données
- Calculette (en voie de disparition)
- Traitement informatique
- Tableurs
- Logiciels de statistique (EPIINFO, STATVIEW, SAS,
SPPS, R ...)
17Quelques méthodes d'échantillonnage
- Attention la nature ne fait pas si bien les
choses... - Si l'objet de l'étude est d'évaluer la proportion
de myopes dans la population de Nancy, que penser
d'une étude qui ne s'adresserait qu'aux
secrétaires ? - Biais évident âge souvent jeune, sexe le plus
souvent féminin, fonction pouvant affecter la
vision - Echantillonnage aléatoire simple (simple random
sampling) - Echantillonnage stratifié (stratified sampling)
- A utiliser quand la population-parent (patients
hospitalisés) est très hétérogène (service
hospitalier et décès par exemple) et que l'on
souhaite s'assurer que ses différentes
composantes seront toutes bien représentées. La
stratification peut apporter un gain de précision
important par rapport à un échantillonnage
aléatoire simple. - Echantillonnage à deux ou plusieurs niveaux
(two-stage sampling, multistage sampling) - Tirage au sort des familles
- Puis tirage au sort dans chaque famille de la
personne enquêtée. - Méthode des quotas (quota) largement utilisée
dans les sondages d'opinion. - Toutes les méthodes nécessitent une base
d'échantillonnage
18La taille de l'échantillon
- La précision dans une enquête dépend
- de la taille de l'échantillon
- du caractère plus ou moins homogène ou hétérogène
de la population parent (variabilité du phénomène
étudiée) - La précision est d'autant meilleure que la taille
de l'échantillon est importante et que la
population est homogène. - gt Pas de recette pour fixer la taille d'un
échantillon il est nécessaire d'avoir une idée
suffisante de la précision souhaitée (risque
accepté) et d'autre part du degré d'homogénéité
(variabilité) de la population étudiée. - gt Attention la comparaison brute (de
pourcentages par exemple) obtenue sur des
échantillons de tailles très différentes aboutit
à comparer des choses de précision très
différente. - La taille peut être fixée en valeur absolue ou en
valeur relative fraction de sondage
19Au total un échantillon représentatif ?
- Un échantillon est représentatif dune population
si tous les individus de cette population ont la
même probabilité (même chance) dêtre dans
léchantillon. Si ce nest pas le cas on a une
erreur systématique un biais. - Le tirage au sort donne un échantillon
représentatif mais il nécessite de disposer dune
base de sondage listing de la population - Exemple
- Lors de la fabrication de comprimés, on utilise
une machine avec 6 moules. Si lon constitue un
échantillon en prenant 1 comprimé sur 6, on a un
échantillon de comprimés issus du même moule donc
non représentatif de la production. - Si lon sintéresse aux chutes en ne prenant que
les malades hospitalisés on a un biais de
recrutement les malades les plus graves décédés
à leur domicile nous échappent comme les plus
légers qui ne sont pas hospitalisés - La capacité de généraliser les résultats dépend
de la représentativité de léchantillon.
20L'expérimentation
- Principes
- L'expérimentation ou encore la réalisation
d'essais suppose que l'apparition des faits que
l'on désire étudier est volontairement provoquée,
dans des conditions qu'on maîtrise au moins
partiellement. - Plus efficace que l'observation
- Protocole expérimental en vue d'affirmer la
causalité - But de l'étude
- Conditions de l'expérience
- Définition des facteurs à étudier
- Sous l'entière dépendance de l'expérimentateur
- Qualitatifs (Nature du traitement)
- Modalités définies a priori
- Quantitatifs (Dose administrée)
- Niveau progression arithmétique ou géométrique
- Définition des unités expérimentales
- Inclusion
- Exclusion
- Définition des observations à étudier
- Critère de jugement
- Définition du dispositif expérimental (Plan
d'expérience)
21Types denquêtes
- En fonction de la collecte des données par
rapport au début de létude - Travail sur des données déjà recueillies
Enquête rétrospective - On veut étudier le cancer du sein chez la femme.
On extrait à partir des fichiers des résumés
standardisés de sortie de lannée 2003, les
résumés correspondant aux femmes ayant un cancer
du sein pour faire létude. - Recueil des données sur des individus ou
phénomènes à venir Enquête prospective - On veut étudier le cancer du sein chez la femme,
à partir du 1er janvier 2006, toutes femmes ayant
un cancer du sein remplira (avec son accord
conformément à la réglementation) un
questionnaire. - Etude transversale/Longitudinale (suivi de
cohorte-registre)
22Types denquêtes
- En fonction de lobjectif
- Etude descriptive
- Objectif Décrire un phénomène
- par exemple estimée la fréquence des nouveaux cas
(incidence) dinfarctus aigus du myocarde par
année dans le département de MM - Recherche de facteur de risque
- Objectif Rechercher les variables qui
favorisent/protègent de lapparition dun
phénomène (pronostic) - Par exemple est ce que la consommation
doestroprogestatifs favorise les accidents
vasculaires cérébraux - Evaluation dun traitement, dun test
diagnostique - Objectif Décider si le traitement A est plus
efficace que le traitement B - Par exemple entre la pyostatine et une
ampicilline, quel est lantibiotique le plus
efficace dans un érésipèle . - La causalité ne peut être affirmée que dans une
expérimentation (gt étude prospective)
comparative randomisée bien menée. - Application Lecture darticle
23Objectifs poursuivis et type denquêtes
- Type de protocole préférentiellement proposé pour
une question donnée (à titre indicatif). Source
ANES Janvier 2000
Remarque l'histoire naturelle d'une maladie
pourra être appréciée de la même manière que les
facteurs pronostiques. Le dépistage est apprécié
comme les tests diagnostiques.
24Différents type de biais
- Biais de caractérisation ou dinformation
- Cest une erreur qui abouti à classer
lobservation dans une mauvaise catégorie. - Exemple Dans le protocole denquête on a la
question - Angine streptococcique Oui/Non sans préciser à
quelle méthode on se réfère. Dans un des centres
de lenquête on utilise le test rapide dans les
autres la techniques classique de prélèvement de
gorge De ce fait il y a biais de caractérisation
certains patients seront étiquetés angine
streptococcique dans un centre alors que sil
sétait présenté dans un autre il ne laurait pas
été. - Biais de sélection
- Cest une erreur dinclusion-exclusion qui
fait que les populations cibles et étudiées ou
les groupes ne sont plus les mêmes ou
comparables. - Etude expérimentale risque faible,
- Etude longitudinale risque faible,
- Etude cas-témoins risque élevé,
- Etude transversale risque considérable
- Facteur de confusion - Paradoxe de Simpson
- Un tiers facteurs (normalement inconnu) abouti à
comparer des populations hétérogènes.
25Facteur de confusion - Paradoxe de Simpson
- Dans cet exemple, les deux hôpitaux
- ont des durés moyennes de séjours identiques.
- Mais on compare des recrutements différents.
- A pathologie identique, lhôpital 1 a toujours
des durées de séjour plus courtes. - Cette notion connue sous le nom de paradoxe de
Simpson, peut aboutir soit à masquer une
différence soit au contraire à montrer une
différence alors que la réalité est tout autre ou
à faire croire à linfluence dun facteur alors
que cest un autre qui est impliqué. - Dès que les groupes à comparer sont hétérogènes,
on y est exposé. Létude par sous groupe ou
dautres méthodes (stratification) permettent de
maîtriser cette difficulté.
Mois de JanvierEtab. Lits Ent J
Réal. DMS Hôpital 1 1 000 8 600 8,60 HTA 100 50
0 5,00 Arythmie 300 2 100 7,00 AVC 600 6
000 10,00 Hôpital 2 1 000 8
600 8,60 HTA 600 4 000 6,67 Arythmie 300 2
200 7,33 AVC 100 2 300 23,00
26Exercice
- 1)
- Dans un hôpital, on a établi un registre au
niveau de laccueil dont on reproduit ci-dessous
certains éléments. - Nom du patient Sexe Date Date Date
- de naissance d'entrée de sortie
- Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/
00 - Albert Maurice Masculin 24/06/19 02/03/00 12/03/
00 - Calvari Emilie Femme 24/11/59 03/03/00 07/03/00
- Calvari Emilie Féminin 24/11/59 10/03/00 18/03/0
0 - Dupond Marcel Homme 10/02/48 17/03/00 17/05/00
- Dupond Marcel Masculin 10/02/48 25/03/00 28/03/0
0 - A) Les données sont elles correctes ?
- B) Comment coder le sexe ?
- C) Combien a-t-on dhospitalisations, de
patients ? - D) Comment calculer la durée de séjour ?
- E) Quel est le pourcentage de femme ?
- 2)
- Peut on utiliser ce registre pour connaître lâge
moyen des personnes habitant le bassin de
population drainé par cet hôpital ?
27La statistique descriptive
- But présenter les données pour que l'on puisse
en prendre connaissance facilement - peut concerner
- une variable à la fois statistique à une
dimension - deux variables à la fois statistique à deux
dimensions - plus de deux variables à la fois statistique
multidimensionnelle - comporte
- les tableaux distributions de fréquences
- les diagrammes graphiques
- les paramètres statistiques réduction des
données à quelques valeurs numériques
caractéristiques
28Les distributions de fréquences
- Séries statistiques
- simple énumération ou dénombrement des
observations - peut être ordonnée (variable quantitative)
- le nombre total d'observations, appelé effectif
de l'échantillon, est noté N - Distributions non groupées
- Lorsque les observations sont nombreuses, une
même valeur peut être observée plusieurs fois. - On utilise xi pour représenter les valeurs
différentes, son nombre doccurrences est noté ni
et est appelé fréquence absolue p représente le
nombre de valeurs différentes que l'on a observé. - ni/N est appelé fréquence relative.
- En cas de variable quantitative, on ordonne les
xi et les fréquences absolues ou relatives
peuvent être additionnées de proche en proche de
manière à obtenir les fréquences cumulées notées
Ni et Fi
xi ni fi Ni Fi x1 172 3 0,015 3 0,015 x2
175 15 0,075 18 0,09 x...
n... f... xp np fp N 1 N200 S1p ni 1 S1p
fi
29Les distributions groupées
- Variables quantitatives
- Quand le nombre de valeurs distinctes est élevé,
on condense les tableaux statistiques en groupant
les observations en classes. On obtient ainsi les
distributions groupées. - Les classes sont mutuellement exclusives. Leurs
valeurs extrêmes sont appelées bornes des
classes. - L'amplitude de la classe encore appelée
intervalle ou module de classe correspond à
l'écart entre la borne supérieure et la borne
inférieure. - Le point central ou encore point médian est situé
à mi chemin entre les bornes. - L'intervalle de classe est généralement constant,
toutefois, on utilise parfois une amplitude
variable notamment pour les classes des valeurs
extrêmes. - Dans certains cas la limite inférieure de la
première classe ou supérieure de la dernière
classe n'est pas précisée. On parle de classes
ouvertes. A éviter !... - En cas de classes d'amplitudes différentes, la
densité de fréquence ni/amplitude classei permet
de comparer les fréquences d'une classe à
l'autre. - Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est condensée
en un nombre fini de mesures en fonction de la
précision de la méthode de mesure utilisée.
30Distribution groupée exemple
Classe Ci ni fi Ni Fi 140-160 150 10 0,05 10 0,
05 160-165 162,5 20 0,10 30 0,15 165-170 167
,5 30 0,15 60 0,30 170-175 172,5 45 0,225 105 0
,525 175-180 177,5 40 0,20 145 0,725 180-185
182,5 35 0,175 180 0,90 185-190 187,5 15 0,075
195 0,975 190-200 195 5 0,025 200 1,0
N200 S 1k fi 1
k nombre de classes
31Les graphiques
- Diagrammes sur distributions non cumulées
- Diagramme en bâtons
- Distribution non groupée
- On trace parallèlement à l'axe des ordonnées, en
regard des xi qui sont portés en abscisse, un
segment de longueur proportionnel à ni - Polygone des fréquences
- Ligne brisée joignant les bâtons
- Fréquences absolues / fréquences relatives
- Histogramme
- Distribution groupée
- Composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/Di). La surface est
proportionnelle à ni. - Diagramme sectoriel
- Variable qualitative
- Angle au centre proportionnel à ni (ou fi)
32Les graphiques
- Diagrammes sur distributions cumulées
- Polygone des fréquences
- sur distribution non groupée escalier
- sur distribution groupée ligne brisée
- Histogrammes
- Principaux aspects de la distribution
- Symétrie - Aplatissement
- Distribution
- en cloche
- en J
- en U
- à plusieurs bosses
- ...
- Autres représentations
- Attention Excel ne fait pas dhistogramme
33Polygone des fréquences Exemple
Nombre de colonies bactériennes/dm2 ni1 52 73
154 255 356 457 328 289 1610 1211 312 1
1
2
3
4
5
6
7
8
9
10
11
12
Nombre de colonies bactériennes/dm2
34Histogramme exemple
Classe ni Densité (10)140-160 10
5160-165 20 40165-170 30 60170-175 45 90
175-180 40 80180-185 35 70185-190 15 301
90-200 5 5
140
160
170
180
190
200
35Diagramme sectoriel exemple
GROUPE ni A 35B 9O 40AB 16
36Les paramètres statistiques
- Paramètres de position
- Valeurs centrales
- Moyenne arithmétique
- Les autres moyennes
- géométrique
- harmonique
- quadratique
- Médiane
- Mode
- Médiale
- Les fractiles
- Quartiles
- Percentiles
- Paramètres de dispersion
- Amplitude ou étendue
- Ecart interquartiles
- Variance, Ecart type
- Coefficient de variation
- Paramètre d'aplatissement et de symétrie
37La moyenne arithmétique
- Appelée moyenne notée x
- Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives. - Calculable quelque soit la loi qui régit la
distribution. - Somme des valeurs (T) divisée par le nombre de
mesures (N). - Suivant la forme de présentation des
observations, différentes formules de calcul
peuvent être employées. - Propriétés
- Centre de gravité de la distribution.
- La somme des écarts à la moyenne est nulle.
- Affectée par les changements de variable.
- Si y ax b on a y ax b
- La moyenne contrairement à la médiane est très
sensible aux valeurs extrêmes. - La moyenne d'un groupe résultant de la fusion
d'autres groupes n'est égale à la moyenne des
moyennes que si tous les groupes ont le même
effectif. - Si la distribution de la variable suit une loi
normale, la moyenne et la médiane et le mode sont
confondus. - La distribution des moyennes de petits
échantillons (Nlt30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale. - Au delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la
distribution de la variable. - La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
38La moyenne formules
- Somme des valeurs / Nombre d'observations
N Nombre total de mesures, p Nombre de
valeurs différentes observées, ni Nombre
d'occurrences de chaque valeur observée. fi
pourcentage de la valeur observée i g nombre de
groupes
39La moyenne
Soit la série statistique correspondant aux
tailles de 6 étudiants 160, 170, 180, 180,
190, 200 N 6, T 1080, x 1080/6 180
Soit la distribution suivante
Nombre de colonies bactériennes/dm2 ni nixi1 5
52 7 143 15 454 25 1005 35 1756 45 2707 32 2
248 28 2249 16 14410 12 12011 3 3312 1 12p
12 N 224 T 1 366 x 1 366 / 224 6,098
40Les autres valeurs centrales
- Les autres moyennes
- Moyenne géométrique d'une série de valeur
positives est la racine Nième du produit des N
valeurs. Elle est toujours inférieure ou égale à
la moyenne arithmétique. - Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses. - Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
41Les autres valeurs centrales
- La médiane notée x (tilde) est telle que la
moitié des observations lui sont inférieure (ou
égale) et la moitié supérieure (ou égale) xi
tel que Fi 0,5. - Sur les distributions symétriques (normales par
exemple) la médiane est égale à la moyenne et au
mode. - Paramètre peu sensible aux valeurs extrêmes
- Sur une distribution non groupée
- Si N impair, la médiane est l'observation de rang
(N1)/2 - Si N est pair, tout nombre entre xN/2 et xN/21
convient. On prend la moyenne (pondérée en cas
d'ex aequo) entre ces deux valeurs. - Sur une distribution groupée, la classe médiane
est celle qui contient la médiane. - Détermination graphique
- En admettant que les observations soient
réparties uniformément dans cette classe, on a
x
limite inférieure de la classe contenant la
médiane
i
D
amplitude de la classe contenant la médiane
i
f
fréquence relative de la classe contenant la
médiane
i
F
(
x
)
fréquence relative cumulée de la classe
i
0
,
5
-
F
(
x
)
x
x
D
i
i
i
f
i
42Autres valeurs centrales et Fractiles
- Valeurs centrales - suite
- Mode encore appelé valeur dominante
- Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi)maximum. - Dans les distributions unimodales symétriques,
mode médiane et moyenne sont confondus
(distribution normale par exemple) - Médiale est la valeur telle que la somme des
observations qui lui sont inférieures et la somme
des observations qui lui sont supérieure sont
égale. - Fractiles
- Quartiles
- Q1 xi tel que Fi 0,25 gt 1/4 des valeurs lui
sont inférieures, 3/4 lui sont supérieures. - Q2 Médiane
- Q3 xi tel que Fi 0,75 gt 3/4 des valeurs lui
sont inférieures, 1/4 lui sont supérieures. - Détermination graphique
- interpolation (cf médiane)
- Percentiles
- 10ième percentile xi tel que Fi 0,10
43Paramètres de dispersion
- Amplitude ou étendue
- Ecart entre la valeur de l'observation maximale
et celle de l'observation minimale. - Non définie pour les distributions groupées
- On montre que l'écart type est toujours inférieur
ou égal à la moitié de l'amplitude. - Dans les distributions unimodales en cloche
l'écart type est égal au tiers de l'amplitude
pour N de l'ordre de 10, au quart de l'amplitude
pour N entre 15 et 50, au cinquième pour des
effectifs de 50 à 200 et au sixième pour des
effectifs de 200 à 1000. - Ecart interquartiles
- Q3 -Q1
- Englobe 50 des observations
- On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2 - Donne naissance à la représentation en box
plot
44Paramètres de dispersion Variance, Écart type
- Variance et écart type
- La variance (variance) d'une série ou d'une
distribution de fréquence est la moyenne
arithmétique des carrés des écarts à la moyenne. - C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible. - La variance de l'échantillon est notée S2. Ce
n'est pas un bon estimateur de la variance de la
population notée s2. - Lestimation de la variance est notée s2.
- Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE. - L'écart type est la racine carré de la variance.
On l'appelle également déviation standard
(standard deviation). Il est dans l'unité de la
variable. - Variance et écart type sont indépendants des
translations (changement d origine) mais pas des
multiplications (changement d'unité). - Si y a x b, on a Sy a Sx
- Pour les distributions en cloche, la variance
calculée à partir des classes est surestimée,
certain réalise la correction de Sheppard. - gt Ne pas utiliser de distribution groupée
- Coefficient de variation (cv)
- Cest le rapport de lécart type divisé par la
moyenne - Écart type de la moyenne
- Cf distribution des moyennes de plusieurs
échantillons
45Variance et écart type calcul
46Paramètres de dispersion Coefficient de
variation
- Le coefficient de variation CV (Coefficient of
variation, percentage standard deviation) - CV est le rapport écart type divisé par la
moyenne. - CV est un nombre pur, sans unités.
- CV est totalement indépendant des unités.
- Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
47Paramètres d'aplatissement et de symétrie
- Moments centrés d'ordre k
- moyenne arithmétique des écarts à la moyenne
élevée à la puissance k. - si k pair gt paramètre de dispersion
- si k impair gt paramètre de symétrie
- Coefficient de Pearson et de Fisher
- b1 pour caractériser la symétrie de la courbe b2
pour caractériser l'aplatissement - b1 M32 / M23 est voisin de 0 si la
distribution est symétrique - b2 M4 / M22 est voisin de 3 si la
distribution suit une loi normale (plus aplatie
qu'elle si b2 lt 3) - cf Loi Normale
- Skewness et kurtosis
48Statistique descriptive à 2 dimensions
- Objectif mettre en évidence les relations qui
existent entre deux séries d'observations. - Situations
- Nature des variables les deux variables peuvent
être quantitatives, qualitatives ou l'une
quantitative et l'autre qualitative. - Séries appariées même variable mesurée dans
deux circonstances - Avant - Après traitement
- Cas - Témoins on apparie un témoin dépourvu de la
maladie que l'on veut étudier sur différents
points que l'on sait lier au phénomène étudié
(par exemple pour une étude de la mortalité on
apparie sur âge, sexe, ...) - Séries non appariées
- Même variable mesurée dans des groupes différents
- Deux variables mesurées chez le même individu par
exemple poids et taille poids et couleur des
yeux...
49Tableaux statistiques à deux dimensions et
représentation graphique
- Séries
- Distribution de fréquence
- Table de contingence
Poids Taille 70 170 80 180 65 165 75 175 90
182 73 170 60 162 68 165 83 180 ... ...
Poids
Taille
Poids Taille 60 65 68 70 73 75 80 83 90 Tot.
162 1 1 165 1 1 2 170 1 1 2
175 1 1 180 1 1 2 182 1 1 T
ot. 1 1 1 1 1 1 1 1 1 9
50Fréquences relatives
- Nombre de mesure totale N
- Total de chaque ligne Li
- Total de chaque colonne Ci
- Effectif d'une cas nij
- Fréquences relatives
- nij / Li
- nij / Cj
- nij / N
- Li / N
- Cj / N
Cheveux Yeux Blonds Bruns Autres Tot.
(Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot.
(Cj) 110 100 90 300
300 Nombre total de mesures 100 Nombre
d'individus ayant les yeux clairs 110 Nombre
d'individus ayant les cheveux blonds 50 / 300
d'individus ayant les cheveux blonds et les yeux
clairs 50 / 110 d'individus parmi les blonds
ayant les yeux clairs 50 / 100 d'individus
parmi les yeux clairs ayant les cheveux blonds
51Covariance
- Variable quantitative
- cov (x,y) moyenne des produits des écarts à la
moyenne. 1/N S1N(xi-x)(yi-y) pour i 1 à N - si x' axb et y'cy d,
- on a Cov(x'y') ac Cov (x,y)
- toujours inférieure ou égale au produit des écart
types - positive "nuage" croissant
- négative "nuage" décroissant
- calcul
T T
N
S
x
y
x y -
N
i
i
i 1
Cov (x,y)
N
i 1
sert au calcul du coefficient de corrélation r.
52Deux caractères qualitatifs binaires
- Tableau de contingence à 4 cases
- Fréquences relatives
- Cancer chez les éthyliques R1 73/1000
- Cancer chez les non éthyliques R0 37/1000
- Risque relatif
- RR R1/R0 0,073/0,037 1,97
- Cote (Odds) (cf course de chevaux)
- Chez les éthyliques R1/(1-R1) 0,79
- Chez les non éthyliques R0/(1-R0) 0,038
53Quelques indicateurs statistiques classiques des
établissements de santé
- La SAE
- Enquête annuelle déclarative établie par tous les
établissements français - Décrit essentiellement les moyens
- Décrit partiellement lactivité, plus
particulièrement certaines activités soumises à
autorisation (IVG,) - Quelques difficultés
- Combien de lits équipent mon établissement ?
- Lits autorisés
- Lits installés
- Lits ouverts à une date donnée
- Lits ouverts en moyenne sur lannée
- Combien dentrées entre le 1er janvier et le 31
décembre inclus ? (4) - Combien de sorties dans la même période ? (5)
- Combien de malades présents dans la période ? (6)
- Combien de journées ?
- Des séjours des malades entrés dans la période
(80) - Des parties de séjours des malades présents dans
la période (73) - Des malades sortis dans la période (72)
54Quelques indicateurs statistiques classiques des
établissements de santé
- La durée moyenne de séjour pour une période
donnée - SAE
- Le nombre de journées est celui des malades
présents auquel on ajoute le nombre de décès
(hospitalisation complète) - Le nombre de malades est le nombre dentrées
(somme des entrées directes et des entrées par
mutation) - DMS 73/4 18,25 jours (si pas de décès)
- PMSI
- Le nombre de journées est celui des malades
sortis pendant la période - Le nombre de malades est le nombre de malades
sortis - DMS 72/5 14,4 jours
55 Quelques indicateurs statistiques classiques des
établissements de santé
- Taux doccupation des lits
- Le taux doccupation des lits mesure
lutilisation des moyens mis à la disposition
dun établissement - Il existe une norme fixée au niveau national 85
en médecine et en chirurgie, 80 en obstétrique
56Quelques indicateurs statistiques classiques des
établissements de santé
- Comment compter le personnel ?
- On différencie
- Le nombre de personnes dans les différentes
catégories professionnelles - Employés, médecins, kinésithérapeutes.
- Le nombre déquivalents temps plein (ETP) pour
pouvoir tenir compte du travail à temps partiel.
Ce nombre représente la force de travail. - Exemple
- Dans un CHU, on a 150 médecins hospitalo-universit
aires qui travaillent à mi-temps à lhôpital, 200
praticiens qui travaillent à temps plein et 50
praticiens qui travaillent à 80. Quel est le
nombre déquivalents temps plein de ce CHU ? - ETP 150 0,5 200 50 0,8
- 75 200 40
- 315
57Biais et risques en épidémiologie
- Voici le tableau résumant une enquête sur le
cancer du poumon sur un échantillon représentatif
- La fréquence du cancer du poumon est de 110/2000
0,055 - Mais
- Elle est de 73/1000 0,073 chez les éthyliques
- Elle est de 37/1000 0,037 chez les non
éthyliques - Un éthylique a 0,073/0,037 1,97 plus de
chances davoir un cancer du poumon. Le
risque relatif RR 1,97. - Un test statistique du Khi 2 12,5 DDL 1 montre
que la différence est très significative - Cette étude indique une association statistique
entre l'éthylisme et cancer du poumon. Mais les
résultats peuvent être expliqués par des biais de
confusion.
58Biais et risque en épidémiologie
- Les facteurs de confusion potentiels sont le
tabagisme et le sexe - Un facteur de confusion est simultanément facteur
de risque pour la maladie et une variable associé
à l'exposition - La première variable à considérer est le
"tabagisme"
59Biais et risques en épidémiologie
- Chez les fumeurs, la fréquence du cancer est de
100/1000 0,1 contre 10/1000 0,01 RR 10 - Le tabagisme est un facteur de risque pour le
cancer du poumon, car les fumeurs ont 10 fois
plus de risque de développer un cancer du poumon
que les non-fumeurs. - Quel est le RR d'être alcoolique pour les fumeurs
par rapport aux non fumeurs ?RR 700/1000 /
300/1000 2,3 - Il existe une association entre le tabagisme et
l'éthylisme. Les fumeurs ont 2,3 fois plus de
chance d'être alcooliques que les non-fumeurs. - Le tabagisme est un facteur de confusion dans
cette étude, les données doivent être analysées
en tenant compte de cette variable. - Calculer le RR (éthylisme) dans chaque strate
?Tabagisme RR 70/700 / 30/300 1Tabagisme -
RR 3/300 / 7/700 1 - L'association entre éthylisme et cancer du poumon
dans les données brutes (RR 1,97) est le
produit d'un biais de confusion. Car à
l'intérieur des différentes strates du
"tabagisme" il n'existe aucune association entre
éthylisme et le cancer du poumon RR 1. - Exemple tiré du cours du Dr Kaba KOUROUMA,
http//www.santetropicale.com/guinee/cours.htm