Title: STATISTIQUE INFERENTIELLE
1STATISTIQUE INFERENTIELLE
- STAGE ACADEMIQUE
- LA REUNION
2PLAN DE LEXPOSE
- 1ière PARTIE GÉNÉRALITÉS
- I. INTRODUCTION
- II. SITUATIONS PROBLEMES
- III. LA STATISTIQUE INFERENTIELLE
- IV. LE PROGRAMME DE SECONDE
- 2ième PARTIE LA THÉORIE DE LECHANTILLONNAGE
- I. LOI NORMALE
- II. THEORIE DE LECHANTILLONNAGE
- III. PRISE DE DECISION
- IV. THEORIE DE LESTIMATION
- V. ESTIMATION DUNE PROPORTION
- VI. EVALUATION DE TRAVAUX AVEC TIC
- 3ième PARTIE APPROFONDISSEMENT
- I. TESTS STATISTIQUES
- II. COMPLEMENTS
32ième PARTIELATHÉORIE
4I. LA LOI NORMALE
5POURQUOI ABORDER LA LOI NORMALE?
- Elle tient son importance, en mathématiques, dun
des théorèmes fondamentaux de la Théorie des
Probabilités le théorème Central Limite. - Ce théorème établit une propriété qui va
justifier l'importance considérable de la loi
normale, à la fois comme modèle pour décrire des
situations pratiques, mais aussi comme outil
théorique.
6THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE
- Soit n variables aléatoires X1,X2,,Xn
- - indépendantes,
- - de même loi,
- - de même espérance mathématique m,
- - de même variance ,
- Alors, lorsque n est  suffisamment grand, la
loi de probabilité de la variable aléatoire
Moyenne Mn (X1X2Xn)/n tend en loi vers la
loi normale .
7INTERPRETATION
- Ce théorème établit la convergence en loi d'une
suite de variables aléatoires vers la loi
normale. Intuitivement, ce résultat affirme que
toute somme de variables aléatoires indépendantes
et identiquement distribuées tend vers une
variable aléatoire gaussienne. - En s'éloignant de la théorie, on peut dire que
bon nombre de phénomènes naturels sont dûs à la
superposition de causes nombreuses, plus ou moins
indépendantes. - Il en résulte que la loi normale les représente
de manière raisonnablement efficace, mais il
sagit plutôt dune modélisation.
8DANS LA VIE COURANTE
- Des variables concernant des phénomènes naturels
ou démographiques, comme les débits annuels
moyens dun fleuve sur au moins 5O ans,
lespérance de vie dune population, peuvent être
approchés par la loi normale. - Les variables biologiques, comme le taux de
triglycérides dans le sang, le taux de
cholestérol, la glycémie, sont modélisées par des
gaussiennes. - Cependant, on peut dire qu'aucun phénomène
concret n'est vraiment gaussien car il ne peut
dépasser certaines limites.
9INTERET DE LA LOI NORMALE DANS LES CALCULS
- La loi Normale a de  bonnes propriétés
mathématiques. - Cest une loi de probabilité symétrique,
- La somme de v.a gaussiennes est une v.a
gaussienne, - La moyenne de v.a gaussiennes est une v.a
gaussienne, - On possède la table de sa fonction de
répartition. - Nous allons aborder rapidement ses propriétés.
10LA LOI NORMALE ou LOI DE LAPLACE-GAUSS
11LOI NORMALE CENTREE REDUITE
- Théorème changement de variable
12TABLE DE LA LOI NORMALE CENTREE REDUITE
- Intérêt de ce théorème ramener toute loi normale
à la loi normale centrée réduite. - Pour calculer les valeurs de la table de la loi
N(01) on utilise le fait que cest une loi de
probabilité, et ses propriétés de symétrie. - La table de la loi N(01) permettra donc de
calculer les valeurs de toutes les fonctions de
répartition de toutes les lois normales.
13BOÃŽTES EN CARTON
- Une entreprise fabrique en série des boîtes en
carton. - On note X la variable aléatoire qui prend pour
valeur la hauteur dune boîte en carton. - On admet que X suit la loi normale de moyenne 2,5
cm et décart type 0,2 cm. - 1. Calculer la probabilité quune boîte, choisie
au hasard dans la production, ait une hauteur
inférieure à 2,25cm. - 2. Déterminer le réel a tel que la probabilité
que X soit inférieure à a, ait pour valeur 0,67.
14RESOLUTION
- 1. X suit une loi normale avec m2,5 et s0,2
soit N(2,50,2). - La probabilité cherchée est P(Xlt2,25).
- On effectue le changement de variable T(X-m)/s
soit T(X-2,5)/0,2 doù - P(Xlt2,25) P(Tlt(2,25-2,5)/0,2)
- P(Tlt-1,25)
- 1-P(Tlt1,25) par symétrie de la
loi de T - 1-0,8944
- 0,1056
15RESOLUTION suite
- 2. le problème revient à résoudre léquation P(X
lt a) 0,67. - A laide du changement de variable, ceci équivaut
à - P(T lt (a 2,5)/0,2) 0,67
- Or, daprès la table, on a P(T lt t) 0,67 pour
- t 0,44.
- On résout donc (a 2,5)/0,2 0,44
- a 0,440,2 2,5
- Ce qui donne a 2,588.
16PLAGES DE NORMALITE
- X v.a suivant N(m, s ) et T v.a suivant N(01)
- Les intervalles suivants ou plages de normalité
se calculent grâce aux égalités ci-dessous,
obtenues grâce à la table de la loi N(01) - P(m-s ltXltm s) P(-1ltTlt1) 0,68.
- P(m-1,6 s ltXltm1,6 s) P(-1,6ltTlt1,6) 0,90.
- P(m-1,96 s ltXltm1,96 s) P(-1,96ltTlt1,96) 0,95.
- P(m-3,09 s ltXltm3,09 s) P(-3,09ltTlt3,09) 0,99.
17PLAGE DE NORMALITE LOI NORMALE CENTREE REDUITE
- On considère la v.a X suivant N(m, s ), et la v.a
T suivant N(01). - Légalité
- P(m-1,96 s lt X lt m1,96 s) P(-1,96 lt T lt 1,96)
0,95, - signifie que T se trouve dans lintervalle
-1,96 1,96, avec une probabilité égale Ã
0,95.
95
0,95.
18SIGNIFICATION
- On appelle intervalle de normalité au niveau de
confiance de 95, lintervalle de centre m dans
lequel on peut sattendre à trouver 95 des
observations. - Pour toutes les v.a gaussiennes, lintervalle de
normalité au niveau de confiance de 95 est - I m - 1,96 s m 1,96 s .
- On lui préfère souvent m - 2 s m 2 s qui
contient au moins 95 des observations.
19II. THEORIE DE LÉCHANTILLONNAGE
20INTRODUCTION
- Avant daborder la théorie de léchantillonnage,
il nous faut rappeler quelques définitions et
propriétés concernant les opérations sur les
variables aléatoires. - On considère par exemple le problème suivant
- Pour améliorer le stockage dun produit, un
supermarché fait une étude sur la vente de packs
de 6 bouteilles deau de marques A et B. - X la v.a mesure le nb de packs deau de marque A
achetés - Y la v.a mesure le nb de packs deau de marque B
achetés. - La probabilité P(Xxi et Yyi) est donnée par le
tableau -
X Y 1 2 3
1 0,1 0,2 0,2
2 0,1 0,3 0,1
21SOMME DE VARIABLES ALEATOIRES
- Soit X et Y deux v.a.
- La somme XY est une v.a S SXY.
- La loi de probabilité de S est obtenue en
associant, Ã chaque valeur s de S, la somme des
probabilités correspondantes à tous les couples
dont la somme des termes est égale à s. - Dans le cas de lexemple précédent, la v.a S
mesure le nombre de packs des marques A et B
achetés.
22- Si on considère en rouge la somme
X Y 1 2 3
1 0,1 s2 0,2 s3 0,2 s4
2 0,1 s3 0,3 s4 0,1 s5
- La loi de probabilité de S est donnée par le
tableau
S 2 3 4 5
P(Ssi) 0,1 0,3 0,5 0,1
23THEOREMES
- SXY
- E(S)E(X)E(Y)
- Si X et Y sont indépendantes V(S)V(X)V(Y).
- De même DX-Y est une v.a.
- E(D)E(X)-E(Y), et
- Si X et Y sont indépendantes V(D)V(X)V(Y).
24COROLLAIRE
- Soit X une variable aléatoire et n variables
aléatoires X1,X2,,Xn indépendantes et de même
loi que X. - Alors, la v.a  Moyenne des Xn Yn, définie par
Yn (X1X2Xn)/n. - Vérifie
- E(Yn)E(S(Xi)/n)(SE(Xi))/nnE(X)/nE(X).
- V(Yn)V(S(Xi)/n)(SV(Xi))/n²(nV(X))/n²V(X)/n.
- s(Yn)s(X)/vn.
25THEOREME FONDAMENTAL LOI FAIBLE DES GRANDS
NOMBRES
- ou THEOREME DE BERNOULLI
- Soit X une variable aléatoire et n variables
aléatoires X1,X2,,Xn de même loi que X. - Alors, la v.a Yn, définie par
- Yn (X1X2Xn)/n
- tend en probabilité vers lespérance
mathématique de X, c.a.d E(X). - Rem Yn est la v.a Moyenne des XnE(Xn).
26COMMENTAIRE
- La loi des grands nombre donne une justification
de lapproche fréquentiste des probabilités. - Si on prend une expérience aléatoire à deux
issues, succès et échec, cest-à -dire une épreuve
de Bernoulli. - On obtient une v.a X tq E(X)p, où p est un
nombre fixé en théorie. - Par exemple pour le lancer dun dé équilibré avec
comme succès obtenir un 6, la théorie nous
apprend que E(X)1/6. - En répétant n fois cette expérience aléatoire, on
obtient n v.a X1, X2, , Xn, v.a de même loi de
probabilité, avec E(X1)E(X2)E(Xn)p. - Pour connaître le nombre de succès, on étudie la
v.a Yn fréquence des succès (Nombre de
succès)/(Nombre dexp aléatoire)(X1X2Xn)/n. - YnE(Xn), et E(Yn)p.
- La loi des grands nombres dit que, quand n tend
vers linfini, la limite de - P(l Yn p llt e) 1, pour un e arbitrairement
petit. - Dans lexemple choisi, Yn(Nombre de 6)/(Nombre
de lancers). - Le théorème dit que, plus n est grand, plus E(Yn)
se rapproche de la valeur théorique p1/6. Ce qui
est assez intuitif.
27ILLUSTRATION
- Pour illustrer la loi faible des grands nombre,
nous proposons ci-après un programme sur Algobox
qui simule le lancer dune pièce de monnaie
équilibrée, pour des échantillons de taille
croissante, de 1 à 1000. - Après avoir fait tourner le programme, on voit
bien la fréquence moyenne converger vers la
probabilité de  face (ce pourrait être
symétriquement de  pile ) qui est de 0,5. - Pour aider à la compréhension du programme, nous
avons introduit des commentaires explicatifs
écrits en rouge.
28PROGRAMME ALGOBOX
- 1 VARIABLES
- 2 x EST_DU_TYPE LISTE
- 3 y EST_DU_TYPE LISTE
- 4 i EST_DU_TYPE NOMBRE
- 5 nbalea EST_DU_TYPE NOMBRE
- 6 n EST_DU_TYPE LISTE
- 7 DEBUT_ALGORITHME
- 8 //abscisse du 1ier point vaut 0
- 9 x0 PREND_LA_VALEUR 0
- 10 //i est la taille de l'échantillon
- 11 i PREND_LA_VALEUR 0
- 12 //nbalea est la valeur du tirage aléatoire 0
(pile) ou 1 (face) - 13 nbalea PREND_LA_VALEUR floor(2random())
- 16 //n0 valeur du 1ier tirage aléatoire
- 17 n0 PREND_LA_VALEUR nbalea
- 18 //ordonnée du 1ier point vaut n0
- 19 y0 PREND_LA_VALEUR n0
- 20 //simulations fréquences en fonction de la
taille de l'échantillon, boucle allant dune
taille 2 jusqu'Ã 1000 - 21 POUR i ALLANT_DE 1 A 999
- 22 DEBUT_POUR
- 23 nbalea PREND_LA_VALEUR floor(2random())
- 26 //xi abscisse du i1 ième point
- 27 xi PREND_LA_VALEUR i
- 28 //ni est la valeur i1 ième tirage plus ceux
des précédents - 29 ni PREND_LA_VALEUR nbaleani-1
- 30 //yi ordonnée du point qui a pour valeur la
fréquence moyenne de "face" sur les i1 tirages - 31 yi PREND_LA_VALEUR ni/(i1)
- 32 TRACER_POINT (xi,yi)
- 33 FIN_POUR
- 34 FIN_ALGORITHME
29THEOREME DE DE MOIVRE-LAPLACE
- Convergence en loi de la loi Binomiale vers la
loi de Laplace-Gauss - Xn étant une suite de v.a binomiales B(np),
alors la suite de v.a - (Xn-np)/( v(npq)) tend en loi vers N(01).
- Rappel Si XB(np)
- Alors E(X)np et V(X)np(1-p)npq.
30COMMENTAIRE
- Lorsque n est assez grand, on prend en pratique
n30, p voisin de 0, plt0.1, et np5 et nq5, on
peut approximer la loi Binomiale B(n,p) par la
loi normale N(m s) avec mnp et sv(npq). - Létude de somme de v.a indépendantes et de même
loi joue un rôle capital en statistique, cest le
théorème Central Limite qui établit la
convergence vers la loi de Gauss sous des
hypothèses peu contraignantes. - Nous le rappelons une nouvelle fois, pour en
donner ensuite ses applications aux lois
déchantillonnage.
31THEOREME FONDAMENTALTHEOREME CENTRAL LIMITE
- Soit n variables aléatoires X1,X2,,Xn
- - indépendantes,
- - de même loi,
- - de même espérance mathématique m,
- - de même variance ,
- Alors, lorsque n est suffisamment grand, la loi
de probabilité de la variable aléatoire Moyenne
Mn (X1X2Xn)/n tend en loi vers la loi
normale .
32THEORIE DE LECHANTILLONNAGE
- Comme on la vu, en statistique, il est en
général impossible détudier un caractère sur
toute une population de taille élevée,
cest-à -dire de faire un recensement. - Avant daborder le problème de lestimation de
paramètres inconnus de la population, il est
indispensable de commencer par létude de
léchantillonnage. - Dans ce cas, les paramètres du caractère étudié
dans la population sont connus, et on en déduit
les propriétés sur lensemble des échantillons
prélevés dans la population. - Nous nenvisagerons que des échantillons
aléatoires, cest-à -dire que tout élément de
léchantillon est choisi au hasard, et de plus,
les choix sont indépendants car supposés avec
remise.
33LOI DECHANTILLONNAGE DE LA MOYENNE
- On considère une population de taille N élevée,
une variable aléatoire X définissant le caractère
étudié, avec E(X)m, et s(X) s . - On prélève un échantillon de taille n, nltltN,
c.a.d on procède à n épreuves indépendantes
auxquelles correspondent n v.a X1,X2,,Xn, de
même loi que X. - Soit la v.a Yn(X1X2Xn)/n, elle associe à tout
échantillon de taille n, la v.a Moyenne de
léchantillon. - Daprès le théorème central Limite, la v.a Yn
suit  approximativement une loi Normale.
34EN PRATIQUE
- Valeurs caractéristiques de cette loi
- E(Yn)m et V(Yn)s²/n ou bien s(Yn)s/vn.
-
- En pratique, quand n devient grand, ngt30, la
loi de Yn peut être approchée par la loi normale
N(m,s/vn).
35LOI DECHANTILLONNAGE DE LA FREQUENCE
- On étudie, dans une population de taille N
élevée, un caractère à deux éventualités,
cest-à -dire une épreuve de Bernoulli. - On obtient une v.a X tq E(X)p, et V(X)p(1-p).
- On prélève un échantillon de taille n, nltltN,
(épreuve répétée n fois de façon identique et
indépendante). - On obtient n v.a X1,X2,,Xn de même moi que X.
- La v.a Fn(X1X2Xn)/n associe à tout
échantillon de taille n la fréquence de succès
sur cet échantillon. - Alors E(Fn)p et V(Fn)(p(1-p))/n.
- Quand n devient grand (ngt50), la loi de Fn
peut être approchée par la loi normale
.
36EN PRATIQUE
- On prélève indépendamment et avec remise n
individus dune population séparée en deux
sous-populations A et son complémentaire , de
proportions respectives p et 1-p. - Soit K le nombre dindividus de la
sous-population A obtenus dans léchantillon. On
sait que K suit une loi binomiale B(n , p). - Notons F K/n, la fréquence empirique de A.
- F est la moyenne arithmétique de n v.a de
Bernoulli de paramètre p, indépendantes. - Donc E(F)p et V(F)(p(1-p))/n.
- Et si n est grand, F suit N(pv(p(1-p)/n)) en
raison de la loi déchantillonnage de la
fréquence (conséquence du théorème central
limite).
37LIEN AVEC LINTERVALLE DE FLUCTUATION
- Or on sait que, pour la loi normale N(m,s),
- lintervalle de fluctuation au seuil 95 est
- m-1,96s m1,96s.
- Donc, lintervalle de fluctuation à 95 de p est
-
- Environ 95 des échantillons aléatoires de taille
n fournissent une fréquence comprise dans cet
intervalle. - Ce résultat est très important car il mesure la
variabilité  naturelle des phénomènes
aléatoires. -
38APPROXIMATION DU PROGRAMME DE SECONDE
- Dans le programme de seconde, il est donné une
version simplifiée de cet intervalle en le
majorant . - En effet, la fonction p?p(1-p) atteint son
maximum pour p1/2, on a donc, pour tout p,
p(1-p) 1/4 et on en déduit que
- Aussi lintervalle I1
- est inclus dans lintervalle I2
.
39VALEURS DE p
- Dans le programme de Seconde, il est mentionné,
de plus, que p doit être compris entre 0,2 et
0,8. - La raison en est que lapproximation est trop
grossière pour les valeurs de p inférieures à 0,2
(ou supérieures à 0,8, puisquil y a symétrie de
la formule p(1-p) ). - Le tableau suivant compare les nombres
1,96/v(p(1-p)/n) et 1/v(n), pour n25 et n100,
et pour des valeurs de p entre 0,1 et 0,5. - Rappelons que ces nombres ne sont toutefois pas
supposés être égaux puisque I2 contient I1. - Plus de 95 des échantillons aléatoires de taille
n fournissent une fréquence appartenant à I2.
40COMPARAISON DE CES DEUX NOMBRES
n n 25 n 25 n 100 n 100
p 1,96v( p(1-p)/n) 1/v(n) 1,96v(p(1-p)/n) 1/v(n)
P0,1 0,118 0,2 0,059 0,1
P0,2 0,157 0,2 0,078 0,1
P0,25 0,170 0,2 0,085 0,1
P0,3 0,180 0,2 0,090 0,1
P0,35 0,187 0,2 0,093 0,1
P0,4 0,192 0,2 0,096 0,1
P0,45 0,195 0,2 0,097 0,1
P0,5 0,196 0,2 0,098 0,1
41FLUCTUATION DE LA FREQUENCE SELON LES ECHANTILLONS
- On peut expérimenter, par simulation à laide des
T.I.C, quenviron plus de 95 des échantillons de
taille n fournissent une fréquence comprise dans
lintervalle - .
- Pour p donné, on peut faire calculer les bornes
de cet intervalle pour quelques valeurs de n, et
faire remarquer quil faut multiplier la taille
de léchantillon par k² pour diviser par k
lamplitude de lintervalle. - On pourra calculer lamplitude correspondant aux
échantillons de taille 1000, souvent retenue dans
les sondages.
42EXEMPLE DAPPLICATION
- On considère un échantillon de 400 pièces issues
dune fabrication où 10 sont défectueuses. - Soit K la v.a qui mesure le nombre de pièces
défectueuses, K est une v.a de Bernoulli
B(4000,1). - Notons F K/n, la fréquence empirique de
lévénement  la pièce est défectueuse , sur un
échantillon de taille n. - F est la moyenne arithmétique de n v.a de
Bernoulli de paramètre p, indépendantes. - Donc E(F)p0,1 et V(F)(p(1-p))/n(0,10,9)/400.
- Quand n est grand, F suit N(pv(p(1-p)/n)), donc
ici F suit - N(0,1 v((0,10,9)/400)).
- Donc on peut sattendre à trouver dans 95 des
cas, un pourcentage de défectueux dans
léchantillon, compris entre -
et - C.a.d F est comprise entre 0,0706 et 0,1294.
- Ou encore, entre 7,1 et 12,9, dans 95 des cas.
43III. PRISE DE DÉCISION
44INTRODUCTION
- Dans les exercices qui suivent, on a besoin de
générer des nombres pseudo-aléatoires, on
rappelle ci-après quelques méthodes utilisées sur
calculatrice et tableur. - Le schéma de base pour simuler une v.a de
Bernoulli est de simuler une urne bicolore, qui
servira aussi à simuler le lancer dun dé. - La plupart des calculatrices, même les modèles
 collège , et les tableurs sont pourvues dun
générateur de nombres pseudo-aléatoires qui
simule le tirage dun nombre décimal au hasard
dans lintervalle 0, 1 (cest-Ã -dire une
réalisation dune variable aléatoire de loi
uniforme sur lintervalle 0, 1 ). - Sur une calculatrice, ce générateur de nombres
aléatoires correspond à la fonction  randomÂ
souvent notée rand ou Ran. Sur un tableur, il
correspond à la fonction ALEA(), introduite avec
des parenthèses vides.
45SIMULATION DUN URNE BICOLORE
- À partir de ce générateur de nombres aléatoires,
on peut facilement simuler un tirage au hasard
dans une urne bicolore. - Supposons que la proportion des boules dont la
couleur nous intéresse soit, dans lurne de 30 . - Sur un tableur, linstruction ALEA()0,30
correspond au tirage au hasard dun nombre de
lintervalle 0,30  1,30. - En prenant la partie entière, le résultat vaut 0
si le nombre appartient à 0,30  1 et 1 si le
nombre appartient à 1  1,30. - Compte-tenu des longueurs respectives de ces
intervalles, on a 70 de chances davoir 0 et 30
de chances davoir 1 (voir le graphique).
46SIMULATION (suite)
- Sur une calculatrice, il suffit dentrer
linstruction rand 0.3 ou Ran 0.3 et de
faire plusieurs fois ENTER ou EXE pour simuler
des tirages avec remise dans cette urne, en ne
tenant compte que de la partie avant la virgule
(0 ou 1). - Sur un tableur, il suffit dentrer dans une
cellule la formule ENT(ALEA()0,3) puis
dapprocher le pointeur de la souris du coin
inférieur droit de la cellule. - Lorsque le pointeur de la souris prend la forme
dune croix noire, on enfonce le bouton gauche
puis on  glisse vers le bas pour constituer un
échantillon (on nomme  recopie cette
manipulation). - On peut ensuite sélectionner léchantillon (avec
le pointeur en forme de croix blanche) puis le
recopier vers la droite (avec le pointeur en
forme de croix noire) pour constituer plusieurs
échantillons.
47CONTRÔLE DE QUALITE
- Dans le contrôle de qualité industrielle, on
sinterroge sur le réglage dune machine lorsque
dans un lot de pièces produites, la fréquence des
défauts observés est peu probable au regard du
modèle indiquant une probabilité p de défauts. - Cest-à -dire quon veut prendre une décision Ã
partir de létude dun échantillon. - Rappelons que dans ce cas on connaît les
paramètres de la v.a mère, c.a.d ici la
probabilité théorique de défauts dans la chaîne
de fabrication.
48DEFAUTS DE PEINTURE
- Dans une usine automobile, on contrôle les
défauts de peinture de type -  grains ponctuels sur le capot .
- Lorsque le processus est sous contrôle,
- on a 20 de ce type de défauts.
- Lors du contrôle aléatoire de 50 véhicules, on
observe 26 de défauts - (13 sur 50).
- Faut-il sinquiéter ?
49RESOLUTION
- En supposant que la situation est sous contrôle,
c.a.d que la proportion présentant ce défaut est
de 0,20, un échantillon aléatoire de 50 véhicules
présentera une proportion de défauts comprise,
dans plus de 95 des cas, entre - 0,20-1/v50 et 0,201/v50
- soit entre environ 6 et 34.
- Il ny a donc pas lieu de considérer une
observation de 26 comme  anormale .
50RESPECT DE LA PARITE
- Deux entreprises A et B recrutent dans un bassin
demploi où il y a autant de femmes que dhommes,
avec la contrainte du respect de la parité. - Dans lentreprise A, il y a 100 employés dont 43
femmes. - Dans lentreprise B, il y a 2500 employés dont
1150 femmes. - Quelle est lentreprise qui respecte le mieux la
parité ?
51RESOLUTION
- Dans lentreprise A, il y a 100 employés dont 43
femmes (soit 43) dans lentreprise B, il y a
2500 employés dont 1150 femmes (soit 46). - Or 46 est plus proche de 50 que 43, les
chiffres parlent deux-mêmes, pourrait-on dire,
et B respecte mieux la parité que A. - Si on admet que la parité, cest exactement 50
de femmes, il est vrai que B en est plus proche
que A. Mais une telle définition a-t-elle ici un
sens? - La parité signifie que lidentité sexuelle
nintervient pas au niveau du recrutement, c.a.d
quau niveau du caractère étudié homme ou femme,
les résultats observés pourraient être obtenus
par choix, au hasard, des individus dans la
population.
52RESOLUTION (suite)
- Dans ce cadre, lentreprise A est assimilable Ã
un échantillon de taille 100 du modèle de
Bernoulli, avec p0,5, et lentreprise B Ã un
échantillon de taille 2500. - Lintervalle de fluctuation de p pour
lentreprise A est 0,40,6, et pour
lentreprise B de 0,480,52. - La valeur 0,43 pour lentreprise A est dans
lintervalle de fluctuation, alors que la valeur
0,46 ne lest pas pour B. - Autrement dit, pour B, la proportion de 46
sobserve dans moins de 5 des échantillons
obtenus selon le modèle accordant une probabilité
égale dobtenir un homme et une femme. - On peut alors rejeter lhypothèse selon laquelle
cette entreprise respecte la parité.
53ECHANTILLON CONFORME OU REPRESENTATIF
- Un échantillon est représentatif ou conforme si f
, la fréquence de léchantillon, appartient Ã
lintervalle de fluctuation de la fréquence
théorique p à un niveau de confiance donné. - Les problèmes qui précèdent reviennent donc à se
demander si un échantillon est conforme. - Ce type de problème se prête bien à lécriture
dun algorithme qui permettra de savoir si
léchantillon est conforme. - Dans lalgorithme suivant, on entre la fréquence
de léchantillon, et en réponse on a la prise de
décision léchantillon est conforme ou pas, au
risque de 5. - Cet algorithme comporte un contrôle de saisie.
- On peut également écrire un algorithme où on
entrerait le nombre de personnes qui ont le
caractère étudié, et qui calculerait également f
.
54ALLERGIE
- Dans une population de grand effectif, on a
observé que 40 des individus sont allergiques Ã
un médicament A. - Dans un échantillon de 100 individus, 31 révèlent
une allergie à A. - Au seuil de 5, peut-on déduire que léchantillon
est représentatif de la population pour
lallergie A?
55RESOLUTION
- On détermine lintervalle
- Ce qui donne
- Comme f 0,31 appartient à cet intervalle, on
accepte H0 au seuil de 5. - Conclusion léchantillon est représentatif de la
population allergique à A.
56ALGORITHMEECHANTILLON CONFORME
- Déclaration
- Variable p, f en Numérique
- Variable n en Entier
- Entrée
- Afficher Entrer la valeur de la proportion du
caractère dans la population totale - Lire p
- Afficher Entrer la taille de léchantillon
- Lire n
- TantQue nlt25
- Afficher Léchantillon est trop petit.
Recommencer - Afficher Entrer la taille de
léchantillon - Lire n
- FinTantQue
- Afficher Entrer la valeur de la fréquence dans
léchantillon - Lire f
- Traitement et Sortie
- Si ((p-1/racine(n))ltf) et (flt(p1/racine(n)))
Alors - Ecrire Au risque de 5, léchantillon est
représentatif - Sinon Ecrire Au risque de 5, léchantillon
nest pas représentatif
57PROGRAMME ALGOBOXECHANTILLON CONFORME
- 1 VARIABLES
- 2 p EST_DU_TYPE NOMBRE
- 3 f EST_DU_TYPE NOMBRE
- 4 n EST_DU_TYPE NOMBRE
- 5 DEBUT_ALGORITHME
- 6 AFFICHER "Entrer la proportion du caractère, en
valeur décimale, dans la population totale" - 7 LIRE p
- 8 AFFICHER "Entrer la taille de l'échantillon"
- 9 LIRE n
- 10 TANT_QUE (nlt25) FAIRE
- 11 DEBUT_TANT_QUE
- 12 AFFICHER "La taille de l'échantillon
est trop petite. Recommencer." - 13 AFFICHER "Entrer la taille de
l'échantillon" - 14 LIRE n
- 15 FIN_TANT_QUE
- 16 AFFICHER "Entrer la fréquence du caractère, en
valeur décimale, dans l'échantillon" - 17 LIRE f
- 18 SI (((p-1/sqrt(n))ltf) ET (flt(p1/sqrt(n)))
ALORS - 19 DEBUT_SI
- 20 AFFICHER "Au risque de 5, cet
échantillon est représentatif de la population" - 21 FIN_SI
- 22 SINON
- 23 DEBUT_SINON
- 24 AFFICHER "Au risque de 5, cet
échantillon n'est pas représentatif de la
population" - 25 FIN_SINON
- 26 FIN_ALGORITHME
58MALADIE DES REINS
- A lhôpital, on peut lire une affiche où il est
écrit  1 français sur 20 est malade des reins
et ne le sait pas. Pensez à vous faire
dépister . - On considère deux échantillons, le premier de
taille 1000, constitué de personnes entre 0 et 35
ans et le second de taille 2000, constitué de
personnes entre 36 et 80 ans. - Pour, le premier 18 personnes ont des problèmes
de reins, pour le second, il sont 120. - Dire, pour chaque échantillon sil est
représentatif de la population française.
59EXECUTIONS
- 2ième échantillon
- . n2000, p0.05, f 120/2000
- Algorithme lancé
- Entrer la proportion du caractère, en valeur
décimale, dans la population totale - Entrer la taille de l'échantillon
- Entrer la fréquence du caractère, en valeur
décimale, dans l'échantillon - Au risque de 5, cet échantillon est
représentatif de la population - Algorithme terminé
- 1ier échantillon
- n1000, p0.05, et f18/1000
-
- Algorithme lancé
- Entrer la proportion du caractère, en valeur
décimale, dans la population totale - Entrer la taille de l'échantillon
- Entrer la fréquence du caractère, en valeur
décimale, dans l'échantillon - Au risque de 5, cet échantillon n'est pas
représentatif de la population - Algorithme terminé
60EN RESUME
- Le raisonnement pour apprécier si une fréquence
observée f sur un échantillon de taille n est
compatible ou non avec un modèle de Bernoulli de
probabilité p, est le suivant - on regarde si cette fréquence est dans
lintervalle de fluctuation à 0,95 relatif aux
échantillons de taille n du modèle. - Cest-à -dire si lécart entre f et p est
probable, au sens où le hasard produirait un tel
écart dans 95 des échantillons envisageables. - Si f est en dehors de lintervalle de
fluctuation, on considère que lobservation nest
pas compatible avec le modèle, en ce sens avec un
tel modèle elle ne sobserverait que dans 5 des
échantillons de taille n (avec un risque de
prendre la mauvaise décision dans 5 des cas). - Ce type de raisonnement est à la base de ce quon
appelle parfois la  preuve statistique .
61TAUX ANORMAL DE LEUCEMIES
- Une petite ville des États-Unis a connu 9 cas de
leucémie chez de jeunes garçons en lespace de 10
années. - Doit-on, comme lont alors affirmé les autorités,
en accuser le hasard ? - Woburn est une petite ville industrielle du
Massachusetts, au Nord-Est des États-Unis. - Du milieu à la fin des années 1970, la communauté
locale sémeut dun grand nombre de leucémies
infantiles survenant en particulier chez les
garçons dans certains quartiers de la ville. - Les familles se lancent alors dans lexploration
des causes et constatent la présence de décharges
et de friches industrielles ainsi que lexistence
de polluants. - Dans un premier temps, les experts
gouvernementaux concluent quil ny a rien
détrange. - Mais les familles sobstinent et saisissent leurs
propres experts. - Une étude statistique montre quil se passe sans
doute quelque chose  détrange .
62TABLEAU DE DONNEES
- Le tableau suivant résume les données
statistiques concernant les garçons de moins de
15 ans, pour la période 1969-1979 (SourceÂ
Massachusetts Department of Public Health).
Population des garçons de moins de 15 ans à Woburn selon le recensement de 1970 n Nombre de cas de leucémie infantile observés chez les garçons à Woburn entre 1969 et 1979 Fréquence des leucémies aux Etats-Unis (garçons) p
5 969 9 0,000 52
63RESOLUTION
- La question statistique qui se pose est de savoir
si le hasard seul peut raisonnablement expliquer
le nombre de leucémies observées chez les jeunes
garçons de Woburn, considérés comme résultant
dun échantillon prélevé dans la population
américaine. - Les conditions requises pour appliquer le
résultat du cours ne sont pas toutes respectées
ici (p nest pas comprise entre 0,2 et 0,8). Il
faut donc observer de plus près la fluctuation
déchantillonnage. - La population des États-Unis étant très grande
par rapport à celle de Woburn, on peut considérer
que léchantillon résulte dun tirage avec remise
et simuler des tirages de taille n avec le
tableur.
64GENERATION DE NOMBRE ALEATOIRE
- On simule sur le tableur 100 échantillons de
taille n 5 969 prélevés au hasard dans une
population de garçons où la probabilité de
leucémie est p 0,000 52 (cas  normal ) en
utilisant linstruction ENT(ALEA()0,000 52)
. - Linstruction ALEA() génère un nombre aléatoire
dans lintervalle 0, 1. - Or, choisir un réel au hasard entre 0 et 1, cest
le choisir suivant la loi uniforme sur 01. - Linstruction ALEA()0,000 52 génère donc un
nombre aléatoire dans lintervalle 0,000 52Â
1,000 52. - Linstruction ENT(ALEA()0,000 52), où ENT
désigne la partie entière, vaut donc la plupart
du temps 0  non malade (en fait avec une
probabilité égale à 1-0,000520,99948),et vaut 1
 malade avec la probabilité égale à 0,000 52. - Sur chaque échantillon, en faisant la somme, on
obtient le nombre de cas observés, sous
lhypothèse dune probabilité  normale .
65SIMULATION SUR TABLEUR
- On représente ensuite sur un graphique les 100
résultats observés sur les échantillons ainsi
simulés. - Les simulations montrent que le nombre de cas
observés à Woburn (9 cas) est extrêmement rare
(de lordre de 1 des simulations sur un grand
nombre dessais), sous lhypothèse dune
probabilité  normale . On peut donc rejeter
lhypothèse que léchantillon soit compatible
avec le modèle. - Il est donc raisonnable de penser que le niveau
très  significativement élevé des leucémies
infantiles observées chez les garçons de Woburn
nest pas dû au hasard. - Ce taux anormalement élevé de leucémies est
officiellement confirmé par le Département de
Santé Publique du Massachusetts en avril 1980.
Les soupçons se portent alors sur la qualité de
leau de la nappe phréatique qui, par des
forages, alimente la ville. On découvre ainsi le
syndrome du trichloréthylène.
66METHODE DETAILLEE
- On construit 100 échantillons de taille 5969 où
chaque colonne contient un échantillon, et chaque
cellule contient linstruction ENT(ALEA()0,000
52). - On crée une ligne où on fait la somme de chaque
colonne, cette ligne contient le cas de leucémies
dans chaque échantillon. - On crée ensuite un graphique où on aura en
abscisse chaque échantillon et en ordonnée le
nombre de cas de leucémies.
67IV. THEORIE DE LÉSTIMATION
68PROBLEMATIQUE
- La problématique est ici tout autre.
- On ne connaît pas un ou des paramètres dune v.a
liée à une population mère. - On veut estimer les valeurs caractéristiques
inconnues de cette v.a, à laide de létude dun
échantillon deffectif n (ngt30) issu de cette
population.
69ESTIMATION
- On suppose vérifiée lhypothèse déchantillonnage
aléatoire simple. - Deux types destimation
- - Lestimation ponctuelle
- - Lestimation par intervalle de confiance.
- Ceci en vue dune prise de décision à partir dun
échantillon.
70ESTIMATION PONCTUELLE
- Les lois de grands nombres justifient lusage de
comme estimation de m, et lusage de s² comme
estimation de s²car tend p.s vers m et S²
tend p.s vers s². - De même la fréquence empirique f dun événement
est une estimation de sa probabilité. - Les v.a , S², et F sont appelées estimateurs
de m, s², et p respectivement.
71ESTIMATEUR
- Soit t un paramètre à estimer, et T un
estimateur. - Qualités dun estimateur
- - Il doit être convergent quand n tend vers
linfini, T doit tendre vers t. - - Il doit être précis converger assez vite.
- - Il doit être sans biais cest-à -dire E(T) doit
être égal à t. - Le biais
- Lerreur destimation entre T et t est la v.a T
- t. - On décompose la différence T - t (T -
E(T))(E(T) - t) - T-E(T) représente les fluctuations aléatoires
de T autour de sa valeur moyenne. - E(T)-t est assimilable à une erreur
systématique due au fait que T varie autour de sa
valeur centrale E(T), et non autour de t. - La quantité E(T)-t sappelle le biais.
- Il est donc souhaitable dutiliser des
estimateurs sans biais tq E(T)t.
72THEOREMES SUR LESTIMATION
- 1) Si (X1, . . . ,Xn) est un échantillon d'une
loi quelconque de moyenne m, alors X (X1 . . .
Xn)/n est un estimateur sans biais de m. - 2) En particulier, si (X1, . . . ,Xn) est un
échantillon de Bernoulli B(p), p ? 0, 1, alorsF
(X1 . . . Xn)/n est un estimateur sans
biais de p. - 3) Si (X1, . . . ,Xn) est un échantillon d'une
loi quelconque de variance s² finie, alors S²
(1/n) S(Xi - X )² est un estimateur biaisé de
s². - En effet ES² ((n - 1)/n)s².
- Par contre l'estimateur corrigé
- S²corr (n/n - 1)S²(1/(n - 1)) S(Xi - X )²
est sans biais. - Pour une démonstration de lestimation de la
variance et du biais, voir un cours de
statistique de luniversité de Brest à ladresse - http//www.math.univ-brest.fr/perso/catherine.rain
er/polystat.pdf
73APPLICATIONA LECHANTILLONNAGE
- On considère une v.a X définissant le caractère
étudié, avec E(X)m et . - Léchantillon a pour moyenne et pour écart
type s. - - La meilleure estimation de m est .
- - La meilleure estimation de est
, - où le coefficient est une
correction du biais. - On considère une population où chaque élément
peut, ou non, posséder une propriété. - Soit p la proportion déléments de la population
mère et f la proportion déléments de
léchantillon possédant cette propriété. - - La meilleure estimation de p est f.
74ENGRENAGES
- Une usine fabrique des engrenages.
- On mesure en mm le diamètre de 100 engrenages
- La moyenne de léchantillon est 23,644 mm, son
écart type est 0,018. - Une estimation de la moyenne de la production
totale est donc 23,644 mm, et une estimation de
lécart type de la production totale est - 0,018v(100/99)0,0181.
Diamètre 23,5923,61 23,6123,63 23,6323,65 23,6523,67 23,6723,68
Effectif 6 8 51 30 5
75ENGRENAGES (suite)
- Dans un échantillon de 150 pièces, on a relevé 3
pièces défectueuses. - Une estimation du nombre de pièces défectueuses
dans la production est 3/1500,02 soit 2. - On peut donc estimer que 2 des pièces produites
sont défectueuses.
76ESTIMATION PAR INTERVALLE DE CONFIANCE
- Lestimation ponctuelle est souvent peu réaliste,
il est donc plus intéressant de fournir une
fourchette destimation, et de plus lestimation
ponctuelle nindique pas le risque que lon a de
se tromper. - Il sagit de déterminer un intervalle contenant
la valeur de la moyenne ou de la fréquence avec
un risque derreur décidé à lavance. - Puis de prendre des décisions sur la population
mère à partir de létude dun ou de plusieurs
échantillons.
77INTERVALLE DE CONFIANCE DE LA MOYENNE
- La loi déchantillonnage de la moyenne est la loi
normale . - La moyenne m est supposée inconnue et on a
calculé la moyenne dun échantillon de
taille n. - Lintervalle de confiance de m au risque de 5
est lintervalle centré en - .
78DEMONSTRATION
- La loi déchantillonnage de la moyenne est
la loi normale N(m,s/vn). - Soit Y la v.a Y suit la
loi N(01). - Soit a le risque derreur ou seuil de risque, a
est une probabilité fixée à lavance (par exemple
a 0,05). - La probabilité pour que Y nappartienne pas Ã
-tt est P(lYlgtt)a ou encore P(lYllt t)1-a. - Ceci donne P(-tlt Ylt t)1-a
- Soit
- Cest à dire
-
79INTERPRETATION
- On a obtenu ce
qui signifie - que pour 100(1-a) des échantillons,
- m appartient à lintervalle
. - Cet intervalle est lintervalle de confiance de
la moyenne au seuil de risque a. - On dit que 1-a est le coefficient de confiance.
- t est le nombre tel que , et se
lit dans la table de la loi N(0,1). - On a
a 0,01 0,05 0,10
t 2,58 1,96 1,645
80AMPOULES ELECTRIQUES
- On suppose que la durée de vie dune ampoule
électrique, exprimée en heures, suit la loi
normale de moyenne M inconnue et décart type s
20. - Une étude sur un échantillon de 16 ampoules donne
une moyenne de vie égale à 3000. - Déterminer lintervalle de confiance de m au
seuil de 10. - Résolution
- a0,1 doù t1,645.
- Un intervalle de confiance de M est
- 3000-1,645(20/v16) 30001,645(20/v16)
- 2991 3009.
81INTERVALLE DE CONFIANCE DE LA FREQUENCE
- La loi déchantillonnage de la fréquence est la
loi normale . - p étant inconnu, lécart type
est remplacé par son estimation ponctuelle - Par analogie avec la méthode précédente,
lintervalle de confiance de la fréquence au
risque 5 est lintervalle centré en f -
82SONDAGE DANS LES TRANSPORTS
- Un sondage dans une commune révèle que sur les
500 personnes interrogées, 42 des personnes sont
mécontentes de lorganisation des transports. - Déterminer au seuil de risque de 5, un
intervalle de confiance du pourcentage de
personnes mécontentes dans la commune.
83RESOLUTION
- Dans léchantillon, la fréquence de personnes
mécontentes est f0,42. - La taille de léchantillon est n500,lintervalle
de confiance de la fréquence est donc -
- Le pourcentage de personnes mécontentes dans la
commune a une probabilité égale à 95 de se
trouver dans lintervalle 37,6744,21.
84V. ÉSTIMATION DUNE PROPORTION
85PROGRAMMEDE SECONDE
- On peut modéliser de nombreuses situations
aléatoires à laide de lurne de Bernoulli, c.a.d
comprenant deux sortes de boules. - La situation de référence est une urne contenant
plusieurs centaines de boules rouges et blanches,
dans une proportion inconnue p de boules rouges. - On cherche à estimer p à partir dun échantillon
de taille n. - On note X la v.a correspondant au nombre de
boules rouges dans léchantillon. X est une v.a
binomiale et on note F la v.a X/n. - On considère un échantillon de taille n, parmi
tous ceux quon aurait pu obtenir. f est une
réalisation de F. - On sait quenviron 95 des fréquences observées
sont dans lintervalle p-1/vn p1/vn.
86INTERVALLE DE CONFIANCE
- Comme P(p-1/vn F p1/vn) 0,95 équivaut Ã
- P(F-1/vn p F1/vn) 0,95
- Lappartenance f à p-1/vn p1/vn équivaut Ã
celle de p à - f-1/vn f1/vn, appelée fourchette de sondage.
- Ceci permet de dire que, parmi tous les
échantillons de taille n possibles, 95 des
intervalles associés f-1/vn f1/vn contiennent
le nombre p. - Pour exprimer lidée quavant tirage de
léchantillon on avait 95 de chances dobtenir
une fourchette f-1/vn f1/vn qui contienne p,
on dira que le fourchette obtenue, une fois
léchantillon tiré, est un intervalle de
confiance au niveau 95 de p. - Il ne dépend que de la taille n de
léchantillon et non de la taille de la
population.
87ESTIMATION DE p INCONNUE
- A la problématique  combien faut-il tirer de
boules dans une urne de Bernoulli pour pouvoir
faire une estimation de sa composition avec une
précision donnée à priori? , on peut répondre
en tirant n boules avec remise, on obtient une
estimation de par un intervalle damplitude 2/vn,
avec une confiance de plus de 95. - Si on tire 1000 boules (avec remise), on a une
estimation de p, Ã plus de 95, par un intervalle
damplitude 6. - Si par exemple le tirage de 1000 boules fournit
une fréquence de boules rouges égale à 0,47, on
peut estimer avec plus de 95 de confiance, que
la proportion p de boules rouges dans lurne est
comprise entre 0,44 et 0,50. - Les sondages, par exemple, sont souvent pratiqués
sur un échantillon de 1000 personnes.
88SOMME DE DEUX DÉS
- Lapproche fréquentiste des probabilités est une
application de la loi faible des grands nombres. - En voici un grand classique
- On lance deux dés équilibrés dont les faces sont
numérotées 1, 2, 3, 4, 5 et 6. On additionne les
nombres lus sur les faces supérieures. On gagne
si on obtient 9. Quelle est la probabilité de
gagner ?
89RESOLUTION
- A ce stade, les élèves ne connaissant pas la
probabilité dapparition du 9. - Ils peuvent simuler des échantillons de taille de
plus en plus grande et estimer la probabilité
dapparition du 9. - On peut ensuite comparer les résultats avec la
probabilité effective, trouvée à laide dun
arbre. - La probabilité théorique est de 1/9 soit environ
0,11111.
90 SUR TABLEUR
- La simulation du lancer dun dé se fait par
linstruction ENT(6ALEA()1). - Ceci car ALEA() fournit un nombre aléatoire entre
0 et1 (1 non compris). - 6ALEA() fournit un nombre aléatoire entre 0 et 6
(6 non compris). - Donc en opérant la translation de 1, on a
ENT(6ALEA()1) fournit un nombre entier de 1 Ã
6. - Manipulation sur tableur
- Dans la colonne A on numérote les échantillons,
par exemple à partir de la ligne 4. - En colonnes B et C , on simule des lancers.
- En colonne D, on écrit le test du type
SI(SOMME(B4C49)10)). - Si le test est vérifié, la valeur correspondante
est 1, sinon elle vaut 0.
91SUR TABLEUR (suite)
- En colonne E, on calcule les fréquences
- - la fréquence du premier échantillon sur la
1ière ligne, - - la fréquence du 1ier et du 2ième échantillon
sur la 2ième ligne, - - la fréquence du 1ier, du 2ième et du 3ième
échantillon sur la 3ième ligne. - Le premier échantillon considéré est donc de
taille 1, le 2ième de taille 2, le 3ième de
taille 3, et ainsi de suite jusquà 100. - Dans la colonne E, on a écrit, en 3ième ligne
SOMME(D4D6)/A6. - On voit quà partir dune certaine valeur de n,
la fréquence tend vers la probabilité théorique.
92FLUCTUATIONS DECHANTILLONNAGE
- Si on fait plusieurs simulations, on peut
observer des fluctuations déchantillonnage
relativement importantes en augmentant la taille
des échantillons jusquà 100.
93Fluctuations déchantillonnage en augmentant la
taille des échantillons jusquà 5000
94SONDAGE
- Un candidat à une élection effectue un sondage
dans sa circonscription comportant 85842
électeurs sur 1068 personnes interrogées, 550
déclarent vouloir voter pour ce candidat. - Pour gagner les élections au premier tour, un
candidat doit obtenir 50 des voix. - Le candidat affirme  si les élections avaient
eu lieu le jour du sondage et si les réponses au
sondage étaient sincères, alors jaurai été élu
au premier tour . - Quen pensez-vous ?
95RESOLUTION
- Nous sommes dans les conditions requises par le
cours, n vaut 1068. - Ici, f 0,51498 et n 1068 donc la fourchette
de sondage est 0,4843 0,5456 au niveau 0,95. - Daprès la fourchette de sondage, p a 95 de
chance dêtre dans cet intervalle. - Donc on ne peut pas certifier que p sera
supérieur ou égal à 0,5. - Laffirmation du candidat est très hâtive, on ne
peut pas laccepter.
96PREMIER TOUR DES PRESIDENTIELLES 2002
- Voici un extrait darticle, publié dans le
journal  Le Monde par le statisticien Michel
Lejeune, après le premier tour de lélection
présidentielle de 2002. -  Pour les rares scientifiques qui savent comment
sont produites les estimations, il était clair
que l'écart des intentions de vote entre les
candidats Le Pen et Jospin rendait tout à fait
plausible le scénario qui s'est réalisé. En
effet, certains des derniers sondages indiquaient
18Â pour Jospin et 14Â pour Le Pen. Si l'on se
réfère à un sondage qui serait effectué dans des
conditions idéales ..., on obtient sur de tels
pourcentages une incertitude de plus ou moins 3
étant donné la taille de l'échantillon ....Â
97PRESIDENTIELLES 2002 ÉNONCÉ
- 1. Si lon tient compte de lincertitude liée au
sondage, entre quels pourcentages pourraient se
situer réellement (à 95 de confiance) les deux
candidats lorsque le sondage donne 18Â pour lun
et 14 pour lautre ? - 2. Représenter sur un même graphique les deux
 fourchettes calculées à la question
précédente. Peut-on prévoir lordre des
candidats ? - Au premier tour de lélection présidentielle de
2002, L. Jospin a obtenu 16,18Â des voix et
J.-M. Le Pen 16,86 . - 3. Expliquer la phrase  l'écart des intentions
de vote entre les candidats Le Pen et Jospin
rendait tout à fait plausible le scénario qui
s'est réalisé .
98RESOLUTION
- 1. Pour L. Jospin, entre 15Â et 21Â . Pour J.-M.
Le Pen, entre 11Â et 17Â . - 2. Un dessin possible.
- Si on utilise ces fourchettes, on ne peut pas
prévoir lordre des candidats car elles ont une
partie commune. - 3. La phrase correspond au fait que les
pourcentages obtenus à lélection sont situés
dans les fourchettes du sondage.
99VI. ÉVALUATION DE TRAVAUX AVEC TIC
100INTRODUCTION
- Les problèmes qui suivent sont des évaluations de
travaux faits avec des TIC, du type  Epreuve
pratique . - On trouve de très bons documents de ce type Ã
ladresse - http//mslp.ac-dijon.fr/spip.php?article202
- Dans le premier problème, on détaille, à la fin,
les compétences mises en jeu dans la résolution
de cette activité. - On rappelle les 4 compétences de base
- o C1 savoir utiliser et compléter ses
connaissances - o C2 sinformer, rechercher, extraire et
organiser de linformation utile (écrite, orale,
observable, numérique) - o C3 raisonner, argumenter, pratiquer une
démarche scientifique, démontrer - o C4 communiquer à laide de langages et
doutils adaptés. - On peut décliner ces 4 compétences dans le
domaine du travail avec les TIC. - On essaiera, dans tous les cas, de développer
lautonomie et linitiative chez lélève.
101SURRESERVATION
- Une compagnie aérienne dispose dun avion de 100
places et vend 107 réservations. - Lobjectif est dévaluer la probabilité de
surréservation de cette compagnie, autrement dit
le risque que plus de 100 passagers se présentent
à lembarquement.
102- 1. On suppose que toute personne réservant une
place davion a une chance sur 10 de ne pas se
présenter à lembarquement. - Réaliser une simulation du nombre de personnes se
présentant à lembarquement dun vol de 100
places pour 107 réservations, sur un échantillon
aléatoire obtenu à laide dun tableur. - Pour cela, dans une feuille de calcul du tableur
- saisir  ENT(ALEA()0,9) dans la cellule A1 et
recopier cette formule vers la droite jusquen
DC1 pour obtenir 107 réalisations , - saisir  SOMME(A1DC1) dans la cellule DD1.
- Appel n 1Â Appeler le professeur pour valider
cette simulation. - 2. Réaliser une simulation du nombre de personnes
se présentant à lembarquement de 1 000 vols de
100 places pour 107 réservations à chaque vol. - Appel n 2 Appeler le professeur pour valider
cette simulation. - 3. Déterminer, pour cette simulation de 1 000
vols, la proportion des cas où leffectif des
passagers se présentant à lembarquement est
supérieur à 100. Pour cela - - dans une cellule de votre choix, utiliser la
formule  NB.SI(DD1DD1000"gt100") , - - dans une cellule de votre choix, en déduire la
fréquence demandée. - Appel n 3 Appeler le professeur pour valider
ces calculs. - 4. a) En utilisant la touche F9, réaliser
plusieurs simulations, puis évaluer la
probabilité que plus de 100 personnes se
présentent à lembarquement. - b) Évaluer, en pourcentage, le risque de
surréservation pour la compagnie aérienne. - Appel n 4 Appeler le professeur pour lui
donner les réponses.
103RESOLUTION
- Tout type de tableur convient, par exemple Excel
ou OpenOffice Calc. - Il suffit dinscrire la formule
 ENT(ALEA()0,9) dans la cellule A1, de la
recopier horizontalement pour quelle soit
calculée 107 fois, puis deffectuer la somme. - Lélève doit comprendre que lorsque la formule
affiche 1, le passager se présente Ã
lembarquement et lorsquelle affiche 0, le
passager ne se présente pas. - Il sagit de sélectionner les cellules de la
simulation de la question 1. puis de recopier
vers le bas. - Linstruction NB.SI fournit un effectif. On
sattache à la différence qui est faite entre
effectif et fréquence. - Lélève doit comprendre que la probabilité de
surréservation est la valeur autour de laquelle
fluctuent les fréquences lorsquon appuie sur la
touche F9. - On accepte toute évaluation comprise entre 0,06
et 0,10. - Signalons pour le professeur que le calcul de
cette probabilité peut seffectuer par la formule
 1-LOI.BINOMIALE(1001070,9VRAI) qui donne
comme réponse environ 0,08 (ou 8 ).
104SIMULATION SUR TABLEUR
105Question COMPETENCES EVALUEES
1 Lélève est capable de réaliser la simulation
Lélève comprend le sens de laffichage 1 ou 0 de linstruction  ENT(ALEA()0,9) Â
2 Lélève est capable de réaliser la simulation de taille 1 000.
3 Lélève connaît la différence de sens entre effectif et fréquence et est capable de calculer la fréquence.
4 Lélève identifie la probabilité comme linvariant autour duquel fluctuent les fréquences observées.
Lélève donne une évaluation convenable de la probabilité.
Lélève sait exprimer, en pourcentages, le risque de surréservation.
Sur tout le TP Lélève tire profit des indications éventuellement données à loral. Ces indications peuvent être des aides logicielles nécessaires pour réaliser ce quil a prévu.
106CRAPS
- Le Craps est un jeu d'argent venant des
États-Unis qui se joue avec deux dés à six faces.
- Les paris portent sur les combinaisons
successives obtenues avec la somme des faces des
deux dés.Il faut jeter deux dés à six faces sur
une table avec des parois verticales de 40Â cm de
hauteur pour que les dés ne sortent pas de l'aire
de jeu. - Le total des 2 faces opposées de chacun des deux
dés doit toujours être égale à 7 16, 25, 34. - Au premier lancer, le lanceur perd sa mise s'il 2
(11) ou 3 (21) ou 12 (66). On dit qu'il a fait
un Craps. - Source wikipedia.org
107- Est-il plus facile d'obtenir un total de 6 ou de
7 avec deux dés ? - 1. Simulation de lancés de deux dés et calcul des
fréquences d'apparition des sommes des faces
obtenues. - 1.1. Lancer le tableur (Excel ou Open Office
Calc) et - ? écrire, dans la cellule A1, l'expressionÂ
Simulation de 10 lancés d'une paire de dés - ? ajuster la largeur de la colonneÂ
- ? entrer, dans la cellule A2, la formuleÂ
ENT(ALEA()61)ENT(ALEA()61). - ? incrémenter la cellule A2, jusqu'à la cellule
A11 (soit 10 cases correspondant aux 10 premiers
lancés) - ? écrire, dans la cellule C6, l'expression Nombr
e de 6Â Â - ? entrer, dans la cellule D6, la formuleÂ
NB.SI(A2A116) - ? écrire, dans la cellule C7, l'expression Nombr
e de 7Â Â - ? entrer, dans la cellule D7, la formuleÂ
NB.SI(A2A117)Â - ? appuyer plusieurs fois sur la touche F9 afin de
faire afficher d'autres lancés. - Cette simulation permet-elle répondre au problème
posé ?