Title: Statistiques
1Statistiques
- Organisation du cours
- 1er semestre 2003/2004 Pr. KOHLER
- Statistiques descriptives
- Echantillonnage
- Codage des variables
- Statistiques descriptives univariées
- Statistiques descriptives multivariées
- Probabilités
- Probabilités et probabilités conditionnelles
- Caractéristiques dun test diagnostique
- Lois de probabilité
- 2ième semestre 2003/2004 Pr. ALBUISSON
- Moyens pédagogiques
- Cours et TD
- Polycopiés
- Exercices TD gt à retirer pour le premier
semestre à SPI-EAO (Bâtiment D RDC) - Cours ADCN
- www.spieao.uhp-nancy.fr/kohler/
- Livres
2Statistiques Généralités
- Introduction
- Statistiques (latin status état)
- Ensemble cohérent de données numériques
relatives à un groupe d'individus. - Statistiques démographiques
- Statistiques annuelles des établissements de
santé - Statistiques du chômage
- Statistiques de santé
- Etat de santé de la population
- Activité Statistiques dactivité hospitalière
(SAE), PMSI -
- Rôle de lINSEE
- Statistique
- Ensemble des méthodes qui permettent de
rassembler et d'analyser les données numériques - Paramètre tel que moyenne... calculé à partir
d'un ensemble de données
3Historique
- Dénombrement de populations humaines pour les
besoins de la guerre et de l'impôt. - Véritable début 18ième siècle
- Arithmétique politique connaissance d'un état
- Première classification des causes de décès
- Calcul des probabilités en France (B. Pascal, A.
de Moivre, D. Bernouilli, P. S. de Laplace, K. F.
Gauss, S. D. Poisson) - Statistiques mathématiques modernes 19ième siècle
1853 premier congrès (A. Quetelet, C. Babbage) - Première moitié du 20ième siècle
- Statistiques biologiques et psychologiques
- Biométrie et Psychométrie
- 1920 A. Fisher et les plans d'expérience
- 1930 Econométrie, Contrôle de qualité industriel
- 1940 Recherche opérationnelle
- Deuxième moitié du 20ième siècle
- Développement de l'informatique
- Test de rang, test exact
- Analyses multi variées ou multidimensionnelles
- Analyse des données
- Méthodes bayesiennes
4La variabilité en santé
- Variabilité de la mesure
- Essayer de mesurer plusieurs(100) fois la taille
en mm dun individu vous trouverez des valeurs
différentes cependant dans labsolu un individu a
une taille et une seule. - Variabilité inter individus
- Si vous observez des personnes dans la rue vous
constatez quelles nont pas toutes la même
couleur de cheveux. - Variabilité intra individu
- Si vous mesurez la tension artérielle dun
individu à différents moments de la journée ou au
même moment mais plusieurs jours de suite vous
obtiendrez des valeurs différentes. - Du fait de la variabilité, on est dans le domaine
de lincertain. Cette science de lincertain,
cest le défi qua relevé la statistique en
sappuyant sur le concept de probabilité. - Plutôt quune seule valeur, la prise en compte de
lincertain permet de déterminer un intervalle à
lintérieur duquel on a une certaine probabilité
de se situer et donc un risque de ne pas y être.
5Statistiques et santé
- Description de l'état de santé d'une population
- Causes de décès, morbidité
- Évaluation d'un test ou d'un signe
- Sémiologie quantitative spécificité,
sensibilité, valeurs prédictives - Évaluation dun traitement
- Essai thérapeutique
- Recherche de facteurs étiologiques
- Économie de la santé
- Évaluation de la qualité et contrôle de
production - .
6Les différentes étapes de toute étude statistique
- La collecte des données
- Simple observation
- Expérimentation
- c'est-à-dire en provoquant volontairement
l'apparition de certains phénomènes contrôlés - Analyse statistique
- Analyse "déductive" ou descriptive
- a pour but de résumer et de présenter les données
observées pour que l'on puisse en prendre
connaissance facilement tableaux, graphiques
... - Analyse "inductive" ou inférence
- permet d'étendre ou de généraliser dans certaines
conditions les conclusions obtenues. Cette phase
comporte certains risques d'erreur qui peuvent
être mesurés en faisant appel à la théorie des
probabilités. - Ces étapes ne sont pas indépendantes.
- L'inférence nécessite des conditions
particulières parfois très restrictives. Il en
résulte que l'observation et l'expérimentation
doivent être organisées de manière à répondre
autant que possible à ces conditions. - Dossiers médicaux / cimetières de données
7La collecte des données
- Enquête
- Ensemble des opérations qui ont pour but de
collecter de façon organisée des informations
relatives à un groupe d'individus ou d'éléments
observés dans leur milieu ou leur cadre habituel. - Les individus (malades...) ou les éléments en
question (séjour hospitalier, comprimés...) sont
appelés unité de base ou unité statistique ou
individu statistique. L'ensemble des unités
auquel on s'intéresse est appelé population ou
univers ou ensemble statistique - Lorsque toutes les unités de la population sont
observées l'enquête est exhaustive. Elle est
encore appelée recensement. - Lorsqu'au contraire, une partie de la population
est observée, l'enquête est dite partielle ou par
échantillonnage. Elle est encore appelée sondage.
La partie de la population observée constitue
l'échantillon. - Les principaux problèmes qui se posent dans la
préparation de l'enquête sont - la définition de l'unité de base et de la
population - la définition des observations à réaliser
- le choix d'une méthode de collecte des données
- le choix d'une méthode d'échantillonnage
- la détermination de la taille de l'échantillon
8La définition de l'unité de base et de la
population
- Problème complexe
- Exemple recensement de la population humaine
- Normalement basé sur l'étude individuelle de
chacun des groupes de personnes qui vivent en
commun dans un même logement ou ltlt sous un même
toitgtgt. - Faut-il dans ce cas partir de la notion de
famille ou de la notion de ménage ? - Comment faut-il considérer les communautés
religieuses ou militaires ? - Comment faut-il traiter le cas des personnes qui,
venues de l'extérieur, se trouvent dans le
territoire au moment de l'enquête pour une
période plus ou moins longue ? - Où faut-il comptabiliser les personnes qui ne
vivent pas constamment au même endroit
(étudiants...) ? - Exemple létude des malades par
l intermédiaire de la description des séjours
hospitaliers (PMSI) - L unité est-elle Le patient ? La maladie ? Le
séjour ? - Le lecteur de tous rapports, mémoires ou
publications doit s'interroger si des réponses
précises à ce genre de questions ne sont pas
fournies.
9La définition des observations
- Les observations à réaliser doivent être
parfaitement définies. - S'il s'agit d'observations qualitatives (résultat
du classement de lobservation dans un groupe),
tel que le diagnostic, l'état civil ou la
profession, la signification exacte des termes
employés devra être précisée de manière non
ambiguë Quest ce quune Blonde ? - Intérêt des classifications établies avec leurs
règles de codage (CIM, CCAM, CIH...) - S'il s'agit d'observations quantitatives
(résultat dune mesure ou dun comptage), tel que
la glycémie (taux de sucre dans le sang), la
pression artérielle, la fréquence cardiaque...
non seulement les termes devront être définis
mais le mode de détermination des valeurs
(comptage, mesure, estimation visuelle), et les
unités de mesure devront être précisées ainsi que
le domaine de validité des mesures. - Entre les deux les observations ordinales
estimation d'un signe subjectif constipation,
douleur.... rang dans une série nombre
d'étoiles du général...
10La définition des observations
- Il faut également préciser les circonstances
d'observation date, heure, repos/effort... - La méthode de collecte des données repose sur un
questionnaire. - Comment est-il rempli ?
- Envoi postal
- Enquêteur
- Enquête téléphonique
- Pour éviter les déboires et tester le
questionnaire on fait une pré-enquête - Attention aux "non-réponses (Données manquantes)
11Quelques méthodes d'échantillonnage
- Attention la nature ne fait pas si bien les
choses... - Si l'objet de l'étude est d'évaluer la proportion
de myopes dans la population de Nancy, que penser
d'une étude qui ne s'adresserait qu'aux
secrétaires ? - Biais évident âge souvent jeune, sexe le plus
souvent féminin, fonction pouvant affecter la
vision - Echantillonnage aléatoire simple (simple random
sampling) - Echantillonnage stratifié (stratified sampling)
- A utiliser quand la population-parent (patients
hospitalisés) est très hétérogène (service
hospitalier et décès par exemple) et que l'on
souhaite s'assurer que ses différentes
composantes seront toutes bien représentées. La
stratification peut apporter un gain de précision
important par rapport à un échantillonnage
aléatoire simple. - Echantillonnage à deux ou plusieurs niveaux
(two-stage sampling, multistage sampling) - Tirage au sort des familles
- Puis tirage au sort dans chaque famille de la
personne enquêtée. - Méthode des quotas (quota) largement utilisée
dans les sondages d'opinion. - Toutes les méthodes nécessitent une base
d'échantillonnage
12La taille de l'échantillon
- Fixée en valeur absolue ou en valeur relative
fraction de sondage - La précision dans une enquête dépend
- de la taille de l'échantillon
- du caractère plus ou moins homogène ou hétérogène
de la population parent. - La précision est d'autant meilleure que la taille
de l'échantillon est importante et que la
population est homogène. - gt Pas de recette pour fixer la taille d'un
échantillon il est nécessaire d'avoir une idée
suffisante de la précision souhaitée (risque
accepté) et d'autre part du degré d'homogénéité
(variabilité) de la population étudiée. - gt Attention la comparaison brute (de
pourcentages par exemple) obtenu sur des
échantillons de taille très différente aboutit à
comparer des choses de précision très différente.
13Au total un échantillon représentatif ?
- Un échantillon est représentatif dune population
si tous les individus de cette population ont la
même probabilité (même chance) dêtre dans
léchantillon. Si ce nest pas le cas on a une
erreur systématique un biais. - Le tirage au sort donne un échantillon
représentatif mais il nécessite de disposer dune
base de sondage listing de la population - Exemple
- Lors de la fabrication de comprimés, on utilise
une machine avec 6 moules. Si lon constitue un
échantillon en prenant 1 comprimé sur 6, on a un
échantillon de comprimés issus du même moule donc
non représentatif de la production. - Si lon sintéresse aux chutes en ne prenant que
les malades hospitalisés on a un biais de
recrutement les malades les plus graves décédés
à leur domicile nous échappent comme les plus
légers qui ne sont pas hospitalisés - La capacité de généraliser les résultats dépend
de la représentativité de léchantillon.
14L'expérimentation
- Principes
- L'expérimentation ou encore la réalisation
d'essais suppose que l'apparition des faits que
l'on désire étudier est volontairement provoquée,
dans des conditions qu'on maîtrise au moins
partiellement. - Plus efficace que l'observation
- Protocole expérimental en vue d'affirmer la
causalité - But de l'étude
- Conditions de l'expérience
- Définition des facteurs à étudier
- Sous l'entière dépendance de l'expérimentateur
- Qualitatifs (Nature du traitement)
- Modalités définies a priori
- Quantitatifs (Dose administrée)
- Niveau progression arithmétique ou géométrique
- Définition des unités expérimentales
- Inclusion
- Exclusion
- Définition des observations à étudier
- Critère de jugement
- Définition du dispositif expérimental (Plan
d'expérience)
15Exemples
- 1)
- Dans un hôpital, on a établi un registre au
niveau de laccueil dont on reproduit ci-dessous
certains éléments. - Nom du patient Sexe Date Date Date
- de naissance d'entrée de sortie
- Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/
00 - Albert Maurice Masculin 24/06/19 02/03/00 12/03/
00 - Calvari Emilie Femme 24/11/59 03/03/00 07/03/00
- Calvari Emilie Féminin 24/11/59 10/03/00 18/03/0
0 - Dupond Marcel Homme 10/02/48 17/03/00 17/05/00
- Dupond Marcel Masculin 10/02/48 25/03/00 28/03/0
0 - A) Les données sont elles correctes ?
- B) Comment coder le sexe ?
- C) Combien a-t-on dhospitalisations, de
patients ? - D) Comment calculer la durée de séjour ?
- E) Quel est le pourcentage de femme ?
- 2)
- Peut on utiliser ce registre pour connaître lâge
moyen des personnes habitant le bassin de
population drainé par cet hôpital ?
16Nature et enregistrement des données
- Types de données
- Données quantitatives
- Données discontinues ou discrètes
- Données continues
- Données qualitatives
- Données binaires
- Données nominales
- Données ordinales ou semi quantitatives
Grande richesse en information
Données quantitatives Données ordinales Données
qualitatives
Faible richesse en information
17Données quantitatives
- Données discontinues ou discrètes
- Donnent lieu à des dénombrements ou comptages.
- Les résultats s'expriment en nombres entiers non
négatifs. - Exemples Nombre d'enfants dans une famille
Nombre de désintégrations par minute... - Données continues
- Donnent lieu à des mesures (mensurations). Elles
soulèvent des problèmes de précision et de choix
d'unité. Dans le domaine biologique il est
illusoire, inutile et même dangereux d'utiliser
plus de deux ou trois chiffres pour exprimer les
résultats individuels. - Exemple Taille, Poids ...
- En pratique, dans le cas des mesures, on effectue
en réalité des observations discontinues en
raison de la nécessité d'arrondir les données
alors que celles-ci sont fondamentalement
continues (mise en classe). - Permettent les calculs arithmétiques (moyenne,
écart type...)
18Données Qualitatives
- Elles concernent des caractères ou des attributs
que chacun des individus peut posséder ou non. - Codées avec des classes mutuellement exclusives
- Type le plus simple variable binaire (sexe...)
- Type nominal plus de deux classes
- Problème de la classification utilisée
- Exemple Classification internationale des
maladies - Peut être décomposé en variables binaires
- Couleur des cheveux (brun, blond, autre)
décomposée en Brun (oui, non) Blond (oui, non)
Autre (oui, non) - Ne permettent pas les calculs arithmétiques
(moyenne) mais donnent lieu à des dénombrements.
19Données ordinales
- Données qualitatives exprimant des niveaux
différents ordonnés. - Exemple intensité d'une cuti (négatif, faiblement
positif, positif, très positif) - Codées (0, , , ou 0, 1, 2 , 3)
- Interprétation parfois délicate des calculs
arithmétiques - Transformation en données quantitatives
utilisation déchelles analogues visuelles - Très fréquentes en médecine et biologie
Je ne suis pas fatigué
Je suis très fatigué
20Enregistrement et traitement des données
- Bordereau papier / Saisie informatique directe
- Papier disponibilité, coût initial faible (mais
il faudra faire la saisie) - Informatique possibilité de contrôle à la
source vérification intra champ et inter
champs, aide au codage. - Standardisation de la présentation
- A partir de l'observation médicale on a les
phases suivantes - Extraction et interprétation des signes et
symptômes douleur thoracique caractéristique
irradiant dans le bras gauche survenant au froid
ou à l'effort gt ANGOR - Synthèse patient présentant une toux, des cors
au pied, une élévation des enzymes cardiaques, un
angor, un tabagisme, un infarctus du myocarde - Infarctus du myocarde avec élévation des enzymes
cardiaques, angor... - Chez un fumeur qui tousse et qui a des cors au
pied. - Hiérarchisation, Sélection
- Traitement des données
- Calculette (en voie de disparition)
- Traitement informatique
- Tableurs
- Logiciels de statistique (EPIINFO, STATVIEW, SAS,
SPPS ...)
21La statistique descriptive
- But présenter les données pour que l'on puisse
en prendre connaissance facilement - peut concerner
- une variable à la fois statistique à une
dimension - deux variables à la fois statistique à deux
dimensions - plus de deux variables à la fois statistique
multidimensionnelle - comporte
- les tableaux distributions de fréquences
- les diagrammes graphiques
- les paramètres statistiques réduction des
données à quelques valeurs numériques
caractéristiques
22Les distributions de fréquences
- Séries statistiques
- simple énumération ou dénombrement des
observations - peut être ordonnée (variable quantitative)
- le nombre total d'observations, appelé effectif
de l'échantillon, est noté N - Distributions non groupées
- Lorsque les observations sont nombreuses, une
même valeur peut être observée plusieurs fois. - On utilise xi pour représenter les valeurs
différentes, son nombre doccurrences est noté ni
et est appelé fréquence absolue p représente le
nombre de valeurs différentes que l'on a observé. - ni/N est appelé fréquence relative.
- En cas de variable quantitative, on ordonne les
xi et les fréquences absolues ou relatives
peuvent être additionnées de proche en proche de
manière à obtenir les fréquences cumulées notées
Ni et Fi
xi ni fi Ni Fi x1 172 3 0,015 3 0,015 x2
175 15 0,075 18 0,09 x...
n... f... xp np fp N 1 N200 S1p ni 1 S1p
fi
23Les distributions groupées
- Variables quantitatives
- Quand le nombre de valeurs distinctes est élevé,
on condense les tableaux statistiques en groupant
les observations en classes. On obtient ainsi les
distributions groupées. - Les classes sont mutuellement exclusives. Leurs
valeurs extrêmes sont appelées bornes des
classes. - L'amplitude de la classe encore appelée
intervalle ou module de classe correspond à
l'écart entre la borne supérieure et la borne
inférieure. - Le point central ou encore point médian est situé
à mi chemin entre les bornes. - L'intervalle de classe est généralement constant,
toutefois, on utilise parfois une amplitude
variable notamment pour les classes des valeurs
extrêmes. - Dans certains cas la limite inférieure de la
première classe ou supérieure de la dernière
classe n'est pas précisée. On parle de classes
ouvertes. A éviter !... - En cas de classes d'amplitudes différentes, la
densité de fréquence ni/amplitude classei permet
de comparer les fréquences d'une classe à
l'autre. - Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est condensée
en un nombre fini de mesures en fonction de la
précision de la méthode de mesure utilisée.
24Distribution groupée exemple
Classe Ci ni fi Ni Fi 140-160 150 10 0,05 10 0,
05 160-165 162,5 20 0,10 30 0,15 165-170 167
,5 30 0,15 60 0,30 170-175 172,5 45 0,225 105 0
,525 175-180 177,5 40 0,20 145 0,725 180-185
182,5 35 0,175 180 0,90 185-190 187,5 15 0,075
195 0,975 190-200 195 5 0,025 200 1,0
N200 S 1k fi 1
k nombre de classes
25Les graphiques
- Diagrammes sur distributions non cumulées
- Diagramme en bâtons
- Distribution non groupée
- On trace parallèlement à l'axe des ordonnées, en
regard des xi qui sont portés en abscisse, un
segment de longueur proportionnel à ni - Polygone des fréquences
- Ligne brisée joignant les bâtons
- fréquences absolues / relatives
- Histogramme
- Distribution groupée
- composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/Di). La surface est
proportionnelle à ni. - Diagramme sectoriel
- Variable qualitative
- Angle au centre proportionnel à ni (ou fi)
26Les graphiques
- Diagrammes sur distributions cumulées
- Polygone des fréquences
- sur distribution non groupée escalier
- sur distribution groupée ligne brisée
- Histogrammes
- Principaux aspects
- Symétrie - Aplatissement
- Distribution
- en cloche
- en J
- en U
- à plusieurs bosses
- ...
- Autres représentations
- Attention Excel ne fait pas dhistogramme
27Polygone des fréquences Exemple
Nombre de colonies bactériennes/dm2 ni1 52 73
154 255 356 457 328 289 1610 1211 312 1
1
2
3
4
5
6
7
8
9
10
11
12
Nombre de colonies bactériennes/dm2
28Histogramme exemple
Classe ni Densité (10)140-160 10
5160-165 20 40165-170 30 60170-175 45 90
175-180 40 80180-185 35 70185-190 15 301
90-200 5 5
140
160
170
180
190
200
29Diagramme sectoriel exemple
GROUPE ni A 35B 9O 40AB 16
30Les paramètres statistiques
- Paramètres de position
- Valeurs centrales
- Moyenne arithmétique
- Les autres moyennes
- géométrique
- harmonique
- quadratique
- Médiane
- Mode
- Médiale
- Les fractiles
- Quartiles
- Percentiles
- Paramètres de dispersion
- Amplitude ou étendue
- Ecart interquartiles
- Variance, Ecart type
- Coefficient de variation
- Paramètre d'aplatissement et de symétrie
31La moyenne arithmétique
- Appelée moyenne notée x
- Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives. - Calculable quelque soit la loi qui régit la
distribution. - Somme des valeurs (T) divisée par le nombre de
mesures (N). - Suivant la forme de présentation des
observations, différentes formules de calcul
peuvent être employées. - Propriétés
- Centre de gravité de la distribution.
- La somme des écarts à la moyenne est nulle.
- Affectée par les changements de variable.
- Si y ax b on a y ax b
- La moyenne contrairement à la médiane est très
sensible aux valeurs extrêmes. - La moyenne d'un groupe résultant de la fusion
d'autres groupes n'est égale à la moyenne des
moyennes que si tous les groupes ont le même
effectif. - Si la distribution de la variable suit une loi
normale, la moyenne et la médiane et le mode sont
confondus. - La distribution des moyennes de petits
échantillons (Nlt30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale. - Au delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la
distribution de la variable. - La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
32La moyenne formules
- Somme des valeurs / Nbre d'observations
N Nombre total de mesures, p Nombre de
valeurs différentes observées, ni Nombre
d'occurrences de chaque valeur observée. fi
pourcentage de la valeur observée i g nombre de
groupes
33La moyenne
Soit la série statistique correspondant aux
tailles de 6 étudiants 160, 170, 180, 180,
190, 200 N 6, T 1080, x 1080/6 180
Soit la distribution suivante
Nombre de colonies bactériennes/dm2 ni nixi1 5
52 7 143 15 454 25 1005 35 1756 45 2707 32 2
248 28 2249 16 14410 12 12011 3 3312 1 12p
12 N 224 T 1 366 x 1 366 / 224 6,098
34Les autres valeurs centrales
- Les autres moyennes
- Moyenne géométrique d'une série de valeur
positives est la racine Nième du produit des N
valeurs. Elle est toujours inférieure ou égale à
la moyenne arithmétique. - Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses. - Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
35Les autres valeurs centrales
- La médiane notée x(tilde) est telle que la moitié
des observations lui sont inférieure (ou égale)
et la moitié supérieure (ou égale) xi tel que
Fi 0,5. - Sur les distributions symétriques (normales par
exemple) la médiane est égale à la moyenne et au
mode. - Paramètre peu sensible aux valeurs extrêmes
- Sur une distribution non groupée
- Si N impair, la médiane est l'observation de rang
(N1)/2 - Si N est pair, tout nombre entre xN/2 et xN/21
convient. On prend la moyenne (pondérée en cas
d'exaequo) entre ces deux valeurs. - Sur distribution groupée, la classe médiane est
celle qui contient la médiane. - Détermination graphique
- En admettant que les observations soient
réparties uniformément dans cette classe, on a
x
limite inférieure de la classe contenant la
médiane
i
D
amplitude de la classe contenant la médiane
x
-
x
i
-
i
i
1
f
fréquence relative de la classe contenant la
médiane
i
F
(
x
)
fréquence relative cumulée de la classe
i
0
,
5
-
F
(
x
)
x
x
D
i
i
i
f
i
36Autres valeurs centrales et Fractiles
- Valeurs centrales - suite
- Mode encore appelé valeur dominante
- Correspond à la valeur la plus fréquente. xi
correspondant au ni maximum. - Dans les distributions unimodales symétriques,
mode médiane et moyenne sont confondus
(distribution normale par exemple) - Médiale est la valeur telle que la somme des
observations qui lui sont inférieures et la somme
des observations qui lui sont supérieure sont
égale. - Fractiles
- Quartiles
- Q1 xi tel que Fi 0,25 gt 1/4 des valeurs lui
sont inférieures, 3/4 lui sont supérieures. - Q2 Médiane
- Q3 xi tel que Fi 0,75 gt 3/4 des valeurs lui
sont inférieures, 1/4 lui sont supérieures. - Détermination graphique
- interpolation (cf médiane)
- Percentiles
- 10ième percentile xi tel que Fi 0,10
37Paramètres de dispersion
- Amplitude ou étendue
- Ecart entre la valeur de l'observation maximale
et celle de l'observation minimale. - Non définie pour les distributions groupées
- On montre que l'écart type est toujours inférieur
ou égal à la moitié de l'amplitude. - Dans les distributions unimodales en cloche
l'écart type est égal au tiers de l'amplitude
pour N de l'ordre de 10, au quart de l'amplitude
pour N entre 15 et 50, au cinquième pour des
effectifs de 50 à 200 et au sixième pour des
effectifs de 200 à 1000. - Ecart interquartiles
- Q3 -Q1
- Englobe 50 des observations
- On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2 - Donne naissance à la représentation en boxplot
38Paramètres de dispersion Variance, Écart type
- Variance et écart type
- La variance (variance) d'une série ou d'une
distribution de fréquence est la moyenne
arithmétique des carrés des écarts à la moyenne. - C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible. - La variance de l'échantillon est notée S2. Ce
n'est pas un bon estimateur de la variance de la
population notée s2. - Lestimation de la variance est notée s2.
- Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE. - L'écart type est la racine carré de la variance.
On l'appelle également déviation standard
(standard deviation). Il est dans l'unité de la
variable. - Variance et écart type sont indépendants des
translations (changement d origine) mais pas des
multiplications (changement d'unité). - Si y a x b, on a Sy a Sx
- Pour les distributions en cloche, la variance
calculée à partir des classes est surestimée,
certain réalise la correction de Sheppard. - gt Ne pas utiliser de distribution groupée
- Coefficient de variation (cv)
- Cest le rapport de lécart type divisé par la
moyenne - Écart type de la moyenne
- Cf distribution des moyennes de plusieurs
échantillons
39Variance et écart type calcul
40Paramètres de dispersion Coefficient de
variation
- Le coefficient de variation CV (Coefficient of
variation, percentage standard deviation) - CV est le rapport écart type divisé par la
moyenne. - CV est un nombre pur, sans unités.
- CV est totalement indépendant des unités.
- Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
41Paramètres d'aplatissement et de symétrie
- Moments centrés d'ordre k
- moyenne arithmétique des écarts à la moyenne
élevée à la puissance k. - si k pair gt paramètre de dispersion
- si k impair gt paramètre de symétrie
- Coefficient de Pearson et de Fisher
- b1 pour caractériser la symétrie de la courbe b2
pour caractériser l'aplatissement - b1 M32 / M23 est voisin de 0 si la
distribution est symétrique - b2 M4 / M22 est voisin de 3 si la
distribution suit une loi normale (plus aplatie
qu'elle si b2 lt 3) - cf Loi Normale
- Skewness et kurtosis
42Statistique descriptive à 2 dimensions
- Objectif mettre en évidence les relations qui
existent entre deux séries d'observations. - Situations
- Nature des variables les deux variables peuvent
être quantitatives, qualitatives ou l'une
quantitative et l'autre qualitative. - Séries appariées même variable mesurée dans
deux circonstances - Avant - Après traitement
- Cas - Témoins on apparie un témoin dépourvu de la
maladie que l'on veut étudier sur différents
points que l'on sait lier au phénomène étudié
(par exemple pour une étude de la mortalité on
apparie sur âge, sexe, ...) - Séries non appariées
- Deux variables mesurées chez le même individu par
exemple poids et taille poids et couleur des
yeux...
43Tableaux statistiques à deux dimensions et
représentation graphique
- Séries
- Distribution de fréquence
- Table de contingence
Poids Taille 70 170 80 180 65 165 75 175 90
182 73 170 60 162 68 165 83 180 ... ...
Poids
Taille
Poids Taille 60 65 68 70 73 75 80 83 90 Tot.
162 1 1 165 1 1 2 170 1 1 2
175 1 1 180 1 1 2 182 1 1 T
ot. 1 1 1 1 1 1 1 1 1 9
44Fréquences relatives
- Nombre de mesure totale N
- Total de chaque ligne Li
- Total de chaque colonne Ci
- Effectif d'une cas nij
- Fréquences relatives
- nij / Li
- nij / Cj
- nij / N
- Li / N
- Cj / N
Cheveux Yeux Blonds Bruns Autres Tot.
(Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot.
(Cj) 110 100 90 300
300 Nombre total de mesures 100 Nombre
d'individus ayant les yeux clairs 110 Nombre
d'individus ayant les cheveux blonds 50 / 300
d'individus ayant les cheveux blonds et les yeux
clairs 50 / 110 d'individus parmi les blonds
ayant les yeux clairs 50 / 100 d'individus
parmi les yeux clairs ayant les cheveux blonds
45Covariance
- Variable quantitative
- cov (x,y) moyenne des produits des écarts à la
moyenne. 1/N S1N(xi-x)(yi-y) pour i 1 à N - si x' axb et y'cy d,
- on a Cov(x'y') ac Cov (x,y)
- toujours inférieure ou égale au produit des écart
types - positive "nuage" croissant
- négative "nuage" décroissant
- calcul
T T
N
S
x
y
x y -
N
i
i
i 1
Cov (x,y)
N
i 1
sert au calcul du coefficient de corrélation r.
46Quelques indicateurs statistiques classiques des
établissements de santé
- La SAE
- Enquête annuelle déclarative établie par tous les
établissements français - Décrit essentiellement les moyens
- Décrit partiellement lactivité, plus
particulièrement certaines activités soumises à
autorisation (IVG,) - Quelques difficultés
- Combien de lits équipent mon établissement ?
- Lits autorisés
- Lits installés
- Lits ouverts à une date donnée
- Lits ouverts en moyenne sur lannée
- Combien dentrées entre le 1er janvier et le 31
décembre inclus ? (4) - Combien de sorties dans la même période ? (5)
- Combien de malades présents dans la période ? (6)
- Combien de journées ?
- Des séjours des malades entrés dans la période
(80) - Des parties de séjours des malades présents dans
la période (73) - Des malades sortis dans la période (72)
47Quelques indicateurs statistiques classiques des
établissements de santé
- La durée moyenne de séjour pour une période
donnée - SAE
- Le nombre de journées est celui des malades
présents auquel on ajoute le nombre de décès
(hospitalisation complète) - Le nombre de malades est le nombre dentrées
(somme des entrées directes et des entrées par
mutation) - DMS 73/4 18,25 jours (si pas de décès)
- PMSI
- Le nombre de journées est celui des malades
sortis pendant la période - Le nombre de malades est le nombre de malades
sortis - DMS 72/5 14,4 jours
48 Quelques indicateurs statistiques classiques des
établissements de santé
- Taux doccupation des lits
- Le taux doccupation des lits mesure
lutilisation des moyens mis à la disposition
dun établissement - Il existe une norme fixée au niveau national 85
en médecine et en chirurgie, 80 en obstétrique
49Quelques indicateurs statistiques classiques des
établissements de santé
- Comment compter le personnel ?
- On différencie
- Le nombre de personnes dans les différentes
catégories professionnelles - Employés, médecins, kinésithérapeutes.
- Le nombre déquivalents temps plein (ETP) pour
pouvoir tenir compte du travail à temps partiel.
Ce nombre représente la force de travail. - Exemple
- Dans un CHU, on a 150 médecins hospitalo-universit
aires qui travaillent à mi-temps à lhôpital, 200
praticiens qui travaillent à temps plein et 50
praticiens qui travaillent à 80. Quel est le
nombre déquivalents temps plein de ce CHU ? - ETP 150 0,5 200 50 0,8
- 75 200 40
- 315