Title: Pr
1LOUTIL STATISTIQUE
21- les données statistiques
3Pour bien analyser le passé, il faut dabord
disposer dinformations nombreuses et fiables.
4Par exemple, si nous nous intéressons aux ventes
de téléviseurs des 4 dernières années, les totaux
annuels ne nous apporterons pas grand chose.
5En revanche, si nous disposons des ventes
mensuelles (48 observations), nous pourrons
certainement en tirer beaucoup plus
denseignements.
6Avec des statistiques hebdomadaires (plus de 200
observations), la base dinformation serait
encore plus riche
7Voici justement un exemple de ventes mensuelles
de téléviseurs sur 4 ans ( nous nous situons en
fin dannée 4 ). Imprimez-le car ce sera le
support de plusieurs exercices dans ce chapitre.
Année 1
Année 2
Année 3
Année 4
Année 5
J F M A M J J A S O N D
20 20 60 60 70 130 70 20 30 50 50 90
J F M A M J J A S O N D
J F M A M J J A S O N D
J F M A M J J A S O N D
J F M A M J J A S O N D
30 30 60 70 70 60 70 30 50 50 50 90
40 40 60 80 70 80 80 40 60 50 60 100
40 40 60 70 80 80 90 60 50 60 60 100
82- les mesures de tendance centrale
9LA MOYENNE cest la méthode la plus utilisée.
Cest la somme des données, divisée par le nombre
de données.
Symbole de la somme
S
Symbole de la moyenne
X i
X
N
10- Exemple si les valeurs dont nous cherchons la
moyenne sont - 12 9 10 14 13 11 10 12 10 8 13 14 11
10 10 9 12 - La somme de ces 18 valeurs est 198
-
- La moyenne est égale à 11
198
18
11La moyenne nest pas toujours significative,
notamment si certaines valeurs sont extrêmes si
notre vendeur de téléviseurs, décrochant le
marché du siècle, réussissait à vendre 4900
téléviseurs au lieu de 100 en décembre de lannée
3, la moyenne passerait à 160, ce qui naurait
rien à voir avec les ventes généralement
observées Les statisticiens utilisent deux
autres notions assez proches la médiane et le
mode. 2- la médiane est la valeur qui se trouve
au milieu de la liste de nombres (autant de
valeurs inférieures que de valeurs supérieures).
Dans notre exemple 20 20 20 30 30 30 30 40 40 40
40 40 50 50 50 50 50 50 50 60 60 60 60 60 60 60
60 60 60 60 70 70 70 70 70 70 70 80 80 80 80 80
90 90 90 100 100 130 il y a 23 observations avant
la valeur 60, et 23 observations après. est
la médiane de notre série
60
123- le mode est la valeur la plus fréquente. Dans
notre exemple 20 3 30 4 40 5 50 7 60
11 70 7 80 5 90 3
100 2 130 1
60
est le mode de la série dobservations !
13Dans cet exemple moyenne, médiane et mode sont
identiques (60). Cest souvent le cas lorsque la
série est normale . On reconnaît graphiquement
une série dite normale par son apparence en
cloche
11
10
9
8
7
6
5
4
3
2
1
10
20
30
40
50
60
70
80
90
100
110
120
130
14Nombre dobservations
11
10
9
8
7
6
5
11 données sont dans la moyenne
4
3
2
1
valeur
10
20
30
40
50
60
70
80
90
100
110
120
130
15Nombre dobservations
11
10
Les autres données représentent la dispersion
autour de la moyenne
9
8
7
6
5
4
3
2
1
valeur
10
20
30
40
50
60
70
80
90
100
110
120
130
16La fonction statistique qui caractérise la
dispersion sappelle la variance. Elle est égale
à lécart au carré moyen de chaque valeur par
rapport à la moyenne. Pour les valeurs 1, 2 et 3,
par exemple, la moyenne est (123) 3 2 La
variance sera (1 2)2 (2 2)2 (3 2)2
3 0,667 (le fait délever au carré évite que
les écarts positifs et négatifs se neutralisent
)
17Pour revenir à une valeur de dispersion
comparable aux valeurs de départ, on retient
généralement la racine carrée de la variance
quon appelle lécart-type. Dans lexemple
précédent, lécart-type sera 0,667 0,82 Si
notre petite série de valeurs avait été 0, 2,
4 Moyenne 2 Variance (0 2)2 (2 2)2 (4
2)2 3 2,67 Écart-type 2,67 1,64
(la dispersion est 2 fois plus importante, ce
qui nest pas vraiment surprenant !)
18EXERCICE
19En repartant de nos statistiques de ventes de
téléviseurs
Année 1
Année 2
Année 3
Année 4
Année 5
J F M A M J J A S O N D
20 20 60 60 70 130 70 20 30 50 50 90
J F M A M J J A S O N D
J F M A M J J A S O N D
J F M A M J J A S O N D
J F M A M J J A S O N D
30 30 60 70 70 60 70 30 50 50 50 90
40 40 60 80 70 80 80 40 60 50 60 100
40 40 60 70 80 80 90 60 50 60 60 100
calculez pour la série de données allant de
janvier année 1 à décembre année 4
20- 1- la variance
- 2- lécart-type
- Questions subsidiaires
- que représente lécart-type calculé ?
- Lécart-type donne-t-il une information plus
intéressante que le simple écart moyen en valeur
absolue ?
21solution
221- variance Nous avions déjà calculé la moyenne
60 La variance sera donnée par la formule (20
60)2 (20 60)2 (60 60)2 (60 60)2
48 512,50 2- écart-type 512,50
23 Lécart-type est un indicateur de la
dispersion. Par rapport à lécart moyen en valeur
absolue, il donne également une idée de la
présence de valeurs aberrantes dans la série
observée
23 en effet, si lécart, positif ou négatif, est
toujours le même, lécart-type sera égal à la
moyenne des écarts en valeur absolue. Ex 10
10 30 30 10 30 10 30 10
30 Moyenne 200 10 20 Écarts -10 -10
10 10 -10 10 -10 10 -10
10 Écarts valeur absolue 10 10 10 10
10 10 10 10 10 10 Moyenne
10 Variance 10010010010010010
0100100100100 1000 10
100 Écart-type 100 10
24Autre série 0 50 0 10 0
100 0 10 0 30 Moyenne 200 10
20 Écarts en valeur absolue
20 30 20 10 20 80 20 10
20 10 Écart moyen 250 10 25 Variance
400 900 400 400 400 6400 400 100
400 100 9900 10
990 Écart-type 990 31
25La différence sensible entre lécart moyen 25 et
lécart-type 31 témoigne de la présence de la
valeur aberrante 100.
26Les statisticiens désignent lécart-type avec la
lettre grecque s ( sigma minuscule) Reprenons
notre exemple initial, et la courbe
correspondante
27Nombre dobservations
11
10
9
8
7
6
5
4
3
s
s
s
s
-
- 2
2
2
-
1
valeur
10
20
30
40
50
60
70
80
90
100
110
120
130
Nous observons que 5 7 11 7 5 35
valeurs, soit 73 du total de 48 sont situées
entre s et s par rapport à la moyenne. 47
valeurs, soit 98 sont situées entre 2 s et 2
s par rapport à cette même moyenne.
28- Dans la réalité, plus le nombre dobservations
est important, plus on se rapproche des valeurs
suivantes - De s à s on trouve 68 des
données - De 2 s à 2 s on trouve 95 des données
- De 3 s à 3 s on trouve 99 des données
- En terme de probabilités, cela veut dire que lon
a par exemple 95 de chances quune donnée se
situe à 2 s autour de la moyenne. - Nous verrons plus loin que ceci nous aidera
notamment - à apprécier la qualité dune prévision.
- à viser un stock de protection.