Title: Mthodologie de lobservation
1Méthodologie de lobservation
- Partie BStatistiques
- Cours 4
2Recherche de description
- Rappel décrire les caractéristiques (les
distributions) dune ou plusieurs variables
mesurées sur un échantillon ou une population. - 2 caractéristiques à dégager
- les indices de tendance centrale des données
- les indices de dispersion
- Présentation des informations et données
- les transformations possibles et nécessaires des
données - les représentations graphiques des résultats
3Lindice de tendance centrale
- indique la caractéristique la plus
représentative de tous les individus du groupe en
la ramenant à un individu type qui se situerait
au  centre de la distribution - Il rend possible la comparaison entre des groupes
dindividus différents sur base de la mesure
dune même variable - Ex les éléphants dAfrique ont  en moyenneÂ
une masse supérieure à celle des éléphants dAsie
4Lindice de dispersion
- exprime létendue de la variabilité des
observations - Les données peuvent être concentrées autour de la
tendance centrale ou au contraire très dispersées - ExempleÂ
- un groupe délèves (classe A) avec une moyenne de
10/20 mais dont les résultats en fin dannée
sétendent de 5/20 à 18/20 - un groupe délèves (classe B) avec une moyenne de
10/20 mais dont les cotes sétabliraient de 9/20
à 14/20 - ? La classe A a un indice de dispersion
supérieur à la classe B
5Les indices de tendance centrale
- Echelle nominale ? le mode
- Echelle ordinale ? la médiane
- Echelle intervalle ? la moyenne
6Pour les échelles nominales le mode
- Le mode (Mo) la modalité de la variable
nominale dont la fréquence (absolue et relative)
est la plus élevée - 2 modes ? distribution bimodale
- 3 modes ? distribution trimodale
Exemple tableau des fréquences pour la variable
 type détude Le mode de la variable  type
détude est la modalité  médecineÂ
7Pour les échelles ordinales la médiane
- La médiane (Md) la valeur qui divise exactement
en deux la distribution de léchantillon, de
manière quil y ait 50 des observations qui la
précèdent et 50 qui la suivent (les catégories
ou les scores étant rangés au préalable). - Remarque Le mode (Mo) peut également être
utilisé pour résumer une distribution constituée
de catégories ordonnées . Il définit la modalité
qui recueille la plus haute fréquence.
8Calcul du médian
- Il faut commencer par classer les modalités par
ordre croissant !! - Si n est pair, le rang médian tombe à mi-chemin
entre les deux résultats centraux. On choisit de
considérer comme médian, celui qui est
immédiatement au-dessus - Md (N/2) 1
- Si n est impair, la médiane est exactement
lobservation du milieu - Md (N1) /2
9Exemple
- On examine, sur base dun échantillon de 20
étudiants, quel serait leur degré de motivation Ã
suivre une session de formation 1 très peu
motivé , 2 peu motivé , 3 motivé , 4 très
motivé
- N 20 pair
- ? N/2 1 11
- lobservation à prendre en considération est la
11ème. - la modalité médiane la catégorie 2 (peu motivé)
10Exemple
- On classe un échantillon de 15 élèves en fonction
dun score (sur 200 points) obtenu à un test - N 15 impair
- ? (N1) /2 8
- ? lobservation qui nous intéresse est la 8ème
- La valeur de ce 8ème rang est de 170
- ? La médiane 170
11Pour les échelles dintervalle la moyenne
- La Moyenne est lindice le plus fréquemment
utilisé dans le cas des échelles dintervalle. - Pour calculer la moyenne, il suffit dadditionner
tous les résultats et de diviser cette somme par
leffectif - m (Somme Xi/n)
- Remarque
- Le mode peut également être utilisé
- La médiane la valeur de la variable telle quil
existe autant de mesures qui lui soient
inférieures que de mesures qui lui soient
supérieures
12Exemple
- On a relevé la taille exprimée en cm de 30
individus adultes - µ 5198 / 30
- ? La moyenne 173.27 cm
- La médiane 175 cm
- Le mode la modalité 175 cm
13Remarques
- La moyenne est très fort influencée par les
extrêmes - Ex Calculer le salaire moyen de 5 joueurs de
foot - 4 joueurs gagnent 100.000 Euros par année, le
5ème joueur gagne 1.000.000 par année. - Le salaire moyen 280.000 Euros
- ? Dans ce cas, la moyenne ne reflète pas
nécessairement bien toute la réalité - La médiane permettra alors de synthétiser ces
données sous un autre angle
14Remarques
- Le mode est facilement repérable et
interprétable. Cependant, il ne tient pas compte
de toutes les données et ne se prête pas au
traitement arithmétique - La médiane est facilement interprétable et aisée
à déterminer mais elle ne se prête pas aux
traitements arithmétiques - La moyenne est facilement interprétable, aisée Ã
calculer et se prête bien aux traitements
arithmétiques
15Les indices de dispersion
- Les indices de dispersion nous fournissent une
information sur la façon dont les données sont
distribuées autour de la tendance centrale - Deux séries statistiques peuvent avoir une même
moyenne mais présenter un étalement différent
autour de cette valeur moyenne
16Les indices de dispersion
- Echelle nominale ? (lentropie)
- Echelle ordinale ? lespace interquartile
- Echelle intervalle ? lécart-type
17Pour les échelles nominales
- Sil existe un indice de dispersion approprié Ã
une échelle nominale (lentropie), dans la
pratique, il est rarement calculé et utilisé - Une distribution dune variable caractérisée par
des effectifs égaux dans toutes les classes sera
considérée comme peu homogène, fort dispersée - Une distribution où une des modalités reçoit tout
leffectif de léchantillon sera définie comme
très homogène, non dispersée
18Pour les échelles ordinales
- Lespace interquartile comprend 50 des
observations, celles qui sont les plus centrales - ? espace interquartile
? - I----------------I--------------------I-------
--------------I----------------------I - 0 25 50 75 100
- lespace compris entre les quartiles 1 et 3
- Â Q1 la valeur en dessous de laquelle se
trouvent 25 des observations inférieurs - Q3 la valeur en dessous de laquelle se trouvent
75 des observations inférieures
19Calcul de lespace interquartile
- Le rang de Q1 ? on calcule N/4, puis on cherche
dans leffectif cumulé à quelle modalité ce rang
appartient - Le rang de Q3 ? on calcule (N/4) x 3, puis on
cherche dans leffectif cumulé à quelle modalité
ce rang appartient - Espace interquartile Q3-Q1
Exemple Le rang de Q1 est n/4 20/4 5 ?
modalité 2 Le rang de Q3 est 3n/4 320/4 15
? modalité 3 Lespace interquartile Q3-Q1
3-21
20Autre exemple
Le rang de Q1 3.75 rang 4 Le rang 4
correspond à un score de 166 Le rang de Q3
11.25 rang 11 Le rang 4 correspond à un score
de 175 Q3-Q1 175-166 9 ? cest sur lespace
de 9 intervalles que se répartissent les 50
dobservations les plus centrales
21Pour les échelles dintervalle
- Lécart-type est lindice de dispersion qui,
correspondant à la moyenne, est le plus utilisé
pour les échelles dintervalle - Lécart-type nous donne un indice de la
dispersion des observations - Il correspond à la racine carrée de la variance.
- La variance la moyenne arithmétique des carrés
des écarts à la moyenne - ? ? ( ? (xi m)² / n 1 )
22Lécart-type
- Il sert à caractériser lécart plus ou moins
grand de lensemble des valeurs par rapport à la
valeur moyenne - Si la dispersion est faible, cela signifie que
les résultats sont groupés autour de la moyenne. - Si la dispersion est forte, cela signifie que les
résultats sont fort dispersés autour de la
moyenne. - Remarque lécart-type est différent de
létendue. Létendue est la différence entre la
plus grande et la plus petite de s valeurs
observées
23Exemple
- Imaginons que deux professeurs procèdent à la
correction de 5 copies - La moyenne des deux professeurs est la mêmeÂ
11/20 - Pourtant les 2 profs ont coté de manière
différente - les notes du prof A se situent entre 6 et 16
- les notes du prof B se situent entre 3 et 19.
Lécart type des notes pour le prof A 3.81
Lécart-type des notes pour le prof B 6.20
24Exemple
Dans les trois cas, la moyenne est égale à 20,
ainsi que la valeur de la médiane. On ne saurait
pour autant conclure que les trois ensemble sont
identiques. ? la variabilité des données est
plus grande dans lensemble 3 que dans lensemble
2 et 1
25Les Transformations de données
- Pour les échelles nominales
- la transformation de fréquence absolue en
fréquence relative () - le pourcentage (fréquence / n) 100
26Les Transformations de données
- Pour les échelles ordinales
- Pour comparer plusieurs variables ordinales
observées sur un même échantillon, on peut
déterminer, pour chacune de ces variables, les
déciles ou les centiles - Le premier décile (D1) la valeur correspondant
à lobservation telle que 10 des observations
soient inférieurs et 90 des observations
supérieures - Rang de D1 (n1)/10
- Les centiles sont obtenus en divisant leffectif
par 100 et en le multipliant par le nombre
correspondant au centile voulu Rang du
C35(n35)/100
27Les Transformations de données
- Pour les échelles dintervalleÂ
- Pour comparer deux distributions obtenues sur des
échelles dintervalle dun même échantillon, on
transforme les données de chaque distribution en
scores centrés réduits. - Cette transformation consiste essentiellement Ã
exprimer les données dans un système de mesure
standard, correspondant à la courbe normale
réduite, symbolisé par Z - Zi (Xi m) / s
28Caractéristiques de la distribution normale
réduite
- mode médiane moyenne 0
- lécart-type vaut toujours 1 (s 1)
- la distribution est symétrique par rapport à la
moyenne - On peut considérer que
- 68 des sujets ont un score compris entre 1 s et
1 s - 95 ont un score compris entre 2 s et 2 s
- 99,8 ont un score compris entre 3 s et 3 s
29Caractéristiques de la distribution normale
réduite
- graphique de cette courbe courbe de Gauss
3 s 2 s 1 s µ
1 s 2 s 3 s
30Les représentations graphiques
- le graphique à barres (histogramme)
- ? pour les échelles nominales, ordinales et
dintervalle - le diagramme circulaire (pie, tarte)
- ? pour les échelles nominales et ordinales
- la ligne brisée des fréquences
- ? pour les échelles ordinales et dintervalle
31Graphique à barres
32Diagramme circulaire
33La ligne brisée des fréquences
34Tableau de synthèse
35Techniques spécifiques
- Quelques techniques souvent utilisées en
statistiques descriptives - Uniquement dans le cas des échelles dintervalle
! - Les taux de croissance
- Les indices
- Les tableaux et figures
- Les transformations de données
36Les taux de croissance
- ? permet détudier lévolution ou la variation
dun phénomène dans le temps - Ex le nombre détudiants à luniversité
- Calcul de lécart relatif (valeur darrivée
valeur de départ) / valeur de départ - 0.221
- Calcul du taux de croissance lécart relatif
100 - 22
37Les indices
- Il est fréquent dutiliser lindice en base 100.
- Celui-ci est obtenu en multipliant par 100 la
valeur darrivée divisée par la valeur de départ - Indice en base 100
- (valeur darrivée / valeur de départ )100
- Dans notre exemple lindice en base 100
- (1.444.038 / 1.182.784) 100 122
38Les tableaux et figures
- Pour les tableaux, figures, etc.
- Une légende permet de préciser les différentes
variables et leurs modalités respectives - En dessous, indiquer les sources des données
recueillies (ONSS, FOREM, ) - Préciser les caractéristiques essentielles de la
population concernée - Un titre clair
39Les transformations de données
- 1) proportion et pourcentage
- Ex dans un échantillon, le nombre dhommes 20
- ? en valeur relative, les hommes représentent
donc 2/5 de léchantillon (20/50) - ? soit 40
- 2) Taux, parts, coefficients
- proportions sous dautres noms
- Ex taux de scolarité
- 3) Les rapports à une donnée extérieure
- on rapport la partie à une donnée extérieure
- Ex ratio financier, densité de population,
rendement