STATISTIQUE INFERENTIELLE - PowerPoint PPT Presentation

1 / 111
About This Presentation
Title:

STATISTIQUE INFERENTIELLE

Description:

statistique inferentielle stage academique la reunion plan de l expose 1i re partie: g n ralit s i. introduction ii. situations problemes iii. – PowerPoint PPT presentation

Number of Views:127
Avg rating:3.0/5.0
Slides: 112
Provided by: mathsAcr
Category:

less

Transcript and Presenter's Notes

Title: STATISTIQUE INFERENTIELLE


1
STATISTIQUE INFERENTIELLE
  • STAGE ACADEMIQUE
  • LA REUNION

2
PLAN DE LEXPOSE
  • 1ière PARTIE GÉNÉRALITÉS
  • I. INTRODUCTION
  • II. SITUATIONS PROBLEMES
  • III. LA STATISTIQUE INFERENTIELLE
  • IV. LE PROGRAMME DE SECONDE
  • 2ième PARTIE LA THÉORIE DE LECHANTILLONNAGE
  • I. LOI NORMALE
  • II. THEORIE DE LECHANTILLONNAGE
  • III. PRISE DE DECISION
  • IV. THEORIE DE LESTIMATION
  • V. ESTIMATION DUNE PROPORTION
  • VI. EVALUATION DE TRAVAUX AVEC TIC
  • 3ième PARTIE APPROFONDISSEMENT
  • I. TESTS STATISTIQUES
  • II. COMPLEMENTS

3
2ième PARTIELATHÉORIE
4
I. LA LOI NORMALE
  • PLAGES DE NORMALITE

5
POURQUOI ABORDER LA LOI NORMALE?
  • Elle tient son importance, en mathématiques, dun
    des théorèmes fondamentaux de la Théorie des
    Probabilités le théorème Central Limite.
  • Ce théorème établit une propriété qui va
    justifier l'importance considérable de la loi
    normale, à la fois comme modèle pour décrire des
    situations pratiques, mais aussi comme outil
    théorique.

6
THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE
  • Soit n variables aléatoires X1,X2,,Xn
  • - indépendantes,
  • - de même loi,
  • - de même espérance mathématique m,
  • - de même variance ,
  • Alors, lorsque n est  suffisamment  grand, la
    loi de probabilité de la variable aléatoire
    Moyenne Mn (X1X2Xn)/n tend en loi vers la
    loi normale .

7
INTERPRETATION
  • Ce théorème établit la convergence en loi d'une
    suite de variables aléatoires vers la loi
    normale. Intuitivement, ce résultat affirme que
    toute somme de variables aléatoires indépendantes
    et identiquement distribuées tend vers une
    variable aléatoire gaussienne.
  • En s'éloignant de la théorie, on peut dire que
    bon nombre de phénomènes naturels sont dûs à la
    superposition de causes nombreuses, plus ou moins
    indépendantes.
  • Il en résulte que la loi normale les représente
    de manière raisonnablement efficace, mais il
    sagit plutôt dune modélisation.

8
DANS LA VIE COURANTE
  • Des variables concernant des phénomènes naturels
    ou démographiques, comme les débits annuels
    moyens dun fleuve sur au moins 5O ans,
    lespérance de vie dune population, peuvent être
    approchés par la loi normale.
  • Les variables biologiques, comme le taux de
    triglycérides dans le sang, le taux de
    cholestérol, la glycémie, sont modélisées par des
    gaussiennes.
  • Cependant, on peut dire qu'aucun phénomène
    concret n'est vraiment gaussien car il ne peut
    dépasser certaines limites.

9
INTERET DE LA LOI NORMALE DANS LES CALCULS
  • La loi Normale a de  bonnes  propriétés
    mathématiques.
  • Cest une loi de probabilité symétrique,
  • La somme de v.a gaussiennes est une v.a
    gaussienne,
  • La moyenne de v.a gaussiennes est une v.a
    gaussienne,
  • On possède la table de sa fonction de
    répartition.
  • Nous allons aborder rapidement ses propriétés.

10
LA LOI NORMALE ou LOI DE LAPLACE-GAUSS
11
LOI NORMALE CENTREE REDUITE
  • Théorème changement de variable

12
TABLE DE LA LOI NORMALE CENTREE REDUITE
  • Intérêt de ce théorème ramener toute loi normale
    à la loi normale centrée réduite.
  • Pour calculer les valeurs de la table de la loi
    N(01) on utilise le fait que cest une loi de
    probabilité, et ses propriétés de symétrie.
  • La table de la loi N(01) permettra donc de
    calculer les valeurs de toutes les fonctions de
    répartition de toutes les lois normales.

13
BOÃŽTES EN CARTON
  • Une entreprise fabrique en série des boîtes en
    carton.
  • On note X la variable aléatoire qui prend pour
    valeur la hauteur dune boîte en carton.
  • On admet que X suit la loi normale de moyenne 2,5
    cm et décart type 0,2 cm.
  • 1. Calculer la probabilité quune boîte, choisie
    au hasard dans la production, ait une hauteur
    inférieure à 2,25cm.
  • 2. Déterminer le réel a tel que la probabilité
    que X soit inférieure à a, ait pour valeur 0,67.

14
RESOLUTION
  • 1. X suit une loi normale avec m2,5 et s0,2
    soit N(2,50,2).
  • La probabilité cherchée est P(Xlt2,25).
  • On effectue le changement de variable T(X-m)/s
    soit T(X-2,5)/0,2 doù
  • P(Xlt2,25) P(Tlt(2,25-2,5)/0,2)
  • P(Tlt-1,25)
  • 1-P(Tlt1,25) par symétrie de la
    loi de T
  • 1-0,8944
  • 0,1056

15
RESOLUTION suite
  • 2. le problème revient à résoudre léquation P(X
    lt a) 0,67.
  • A laide du changement de variable, ceci équivaut
    à
  • P(T lt (a 2,5)/0,2) 0,67
  • Or, daprès la table, on a P(T lt t) 0,67 pour
  • t 0,44.
  • On résout donc (a 2,5)/0,2 0,44
  • a 0,440,2 2,5
  • Ce qui donne a 2,588.

16
PLAGES DE NORMALITE
  • X v.a suivant N(m, s ) et T v.a suivant N(01)
  • Les intervalles suivants ou plages de normalité
    se calculent grâce aux égalités ci-dessous,
    obtenues grâce à la table de la loi N(01)
  • P(m-s ltXltm s) P(-1ltTlt1) 0,68.
  • P(m-1,6 s ltXltm1,6 s) P(-1,6ltTlt1,6) 0,90.
  • P(m-1,96 s ltXltm1,96 s) P(-1,96ltTlt1,96) 0,95.
  • P(m-3,09 s ltXltm3,09 s) P(-3,09ltTlt3,09) 0,99.

17
PLAGE DE NORMALITE LOI NORMALE CENTREE REDUITE
  • On considère la v.a X suivant N(m, s ), et la v.a
    T suivant N(01).
  • Légalité
  • P(m-1,96 s lt X lt m1,96 s) P(-1,96 lt T lt 1,96)
    0,95,
  • signifie que T se trouve dans lintervalle
    -1,96 1,96, avec une probabilité égale à
    0,95.

95
0,95.
18
SIGNIFICATION
  • On appelle intervalle de normalité au niveau de
    confiance de 95, lintervalle de centre m dans
    lequel on peut sattendre à trouver 95 des
    observations.
  • Pour toutes les v.a gaussiennes, lintervalle de
    normalité au niveau de confiance de 95 est
  • I m - 1,96 s m 1,96 s .
  • On lui préfère souvent m - 2 s m 2 s qui
    contient au moins 95 des observations.

19
II. THEORIE DE LÉCHANTILLONNAGE
20
INTRODUCTION
  • Avant daborder la théorie de léchantillonnage,
    il nous faut rappeler quelques définitions et
    propriétés concernant les opérations sur les
    variables aléatoires.
  • On considère par exemple le problème suivant
  • Pour améliorer le stockage dun produit, un
    supermarché fait une étude sur la vente de packs
    de 6 bouteilles deau de marques A et B.
  • X la v.a mesure le nb de packs deau de marque A
    achetés
  • Y la v.a mesure le nb de packs deau de marque B
    achetés.
  • La probabilité P(Xxi et Yyi) est donnée par le
    tableau

X Y 1 2 3
1 0,1 0,2 0,2
2 0,1 0,3 0,1
21
SOMME DE VARIABLES ALEATOIRES
  • Soit X et Y deux v.a.
  • La somme XY est une v.a S SXY.
  • La loi de probabilité de S est obtenue en
    associant, à chaque valeur s de S, la somme des
    probabilités correspondantes à tous les couples
    dont la somme des termes est égale à s.
  • Dans le cas de lexemple précédent, la v.a S
    mesure le nombre de packs des marques A et B
    achetés.

22
  • Si on considère en rouge la somme

X Y 1 2 3
1 0,1 s2 0,2 s3 0,2 s4
2 0,1 s3 0,3 s4 0,1 s5
  • La loi de probabilité de S est donnée par le
    tableau

S 2 3 4 5
P(Ssi) 0,1 0,3 0,5 0,1
23
THEOREMES
  • SXY
  • E(S)E(X)E(Y)
  • Si X et Y sont indépendantes V(S)V(X)V(Y).
  • De même DX-Y est une v.a.
  • E(D)E(X)-E(Y), et
  • Si X et Y sont indépendantes V(D)V(X)V(Y).

24
COROLLAIRE
  • Soit X une variable aléatoire et n variables
    aléatoires X1,X2,,Xn indépendantes et de même
    loi que X.
  • Alors, la v.a  Moyenne des Xn  Yn, définie par
    Yn (X1X2Xn)/n.
  • Vérifie
  • E(Yn)E(S(Xi)/n)(SE(Xi))/nnE(X)/nE(X).
  • V(Yn)V(S(Xi)/n)(SV(Xi))/n²(nV(X))/n²V(X)/n.
  • s(Yn)s(X)/vn.

25
THEOREME FONDAMENTAL LOI FAIBLE DES GRANDS
NOMBRES
  • ou THEOREME DE BERNOULLI
  • Soit X une variable aléatoire et n variables
    aléatoires X1,X2,,Xn de même loi que X.
  • Alors, la v.a Yn, définie par
  • Yn (X1X2Xn)/n
  • tend en probabilité vers lespérance
    mathématique de X, c.a.d E(X).
  • Rem Yn est la v.a Moyenne des XnE(Xn).

26
COMMENTAIRE
  • La loi des grands nombre donne une justification
    de lapproche fréquentiste des probabilités.
  • Si on prend une expérience aléatoire à deux
    issues, succès et échec, cest-à-dire une épreuve
    de Bernoulli.
  • On obtient une v.a X tq E(X)p, où p est un
    nombre fixé en théorie.
  • Par exemple pour le lancer dun dé équilibré avec
    comme succès obtenir un 6, la théorie nous
    apprend que E(X)1/6.
  • En répétant n fois cette expérience aléatoire, on
    obtient n v.a X1, X2, , Xn, v.a de même loi de
    probabilité, avec E(X1)E(X2)E(Xn)p.
  • Pour connaître le nombre de succès, on étudie la
    v.a Yn  fréquence des succès (Nombre de
    succès)/(Nombre dexp aléatoire)(X1X2Xn)/n.
  • YnE(Xn), et E(Yn)p.
  • La loi des grands nombres dit que, quand n tend
    vers linfini, la limite de
  • P(l Yn p llt e) 1, pour un e arbitrairement
    petit.
  • Dans lexemple choisi, Yn(Nombre de 6)/(Nombre
    de lancers).
  • Le théorème dit que, plus n est grand, plus E(Yn)
    se rapproche de la valeur théorique p1/6. Ce qui
    est assez intuitif.

27
ILLUSTRATION
  • Pour illustrer la loi faible des grands nombre,
    nous proposons ci-après un programme sur Algobox
    qui simule le lancer dune pièce de monnaie
    équilibrée, pour des échantillons de taille
    croissante, de 1 à 1000.
  • Après avoir fait tourner le programme, on voit
    bien la fréquence moyenne converger vers la
    probabilité de  face  (ce pourrait être
    symétriquement de  pile ) qui est de 0,5.
  • Pour aider à la compréhension du programme, nous
    avons introduit des commentaires explicatifs
    écrits en rouge.

28
PROGRAMME ALGOBOX
  • 1 VARIABLES
  • 2 x EST_DU_TYPE LISTE
  • 3 y EST_DU_TYPE LISTE
  • 4 i EST_DU_TYPE NOMBRE
  • 5 nbalea EST_DU_TYPE NOMBRE
  • 6 n EST_DU_TYPE LISTE
  • 7 DEBUT_ALGORITHME
  • 8 //abscisse du 1ier point vaut 0
  • 9 x0 PREND_LA_VALEUR 0
  • 10 //i est la taille de l'échantillon
  • 11 i PREND_LA_VALEUR 0
  • 12 //nbalea est la valeur du tirage aléatoire 0
    (pile) ou 1 (face)
  • 13 nbalea PREND_LA_VALEUR floor(2random())
  • 16 //n0 valeur du 1ier tirage aléatoire
  • 17 n0 PREND_LA_VALEUR nbalea
  • 18 //ordonnée du 1ier point vaut n0
  • 19 y0 PREND_LA_VALEUR n0
  • 20 //simulations fréquences en fonction de la
    taille de l'échantillon, boucle allant dune
    taille 2 jusqu'à 1000
  • 21 POUR i ALLANT_DE 1 A 999
  • 22 DEBUT_POUR
  • 23 nbalea PREND_LA_VALEUR floor(2random())
  • 26 //xi abscisse du i1 ième point
  • 27 xi PREND_LA_VALEUR i
  • 28 //ni est la valeur i1 ième tirage plus ceux
    des précédents
  • 29 ni PREND_LA_VALEUR nbaleani-1
  • 30 //yi ordonnée du point qui a pour valeur la
    fréquence moyenne de "face" sur les i1 tirages
  • 31 yi PREND_LA_VALEUR ni/(i1)
  • 32 TRACER_POINT (xi,yi)
  • 33 FIN_POUR
  • 34 FIN_ALGORITHME

29
THEOREME DE DE MOIVRE-LAPLACE
  • Convergence en loi de la loi Binomiale vers la
    loi de Laplace-Gauss
  • Xn étant une suite de v.a binomiales B(np),
    alors la suite de v.a
  • (Xn-np)/( v(npq)) tend en loi vers N(01).
  • Rappel Si XB(np)
  • Alors E(X)np et V(X)np(1-p)npq.

30
COMMENTAIRE
  • Lorsque n est assez grand, on prend en pratique
    n30, p voisin de 0, plt0.1, et np5 et nq5, on
    peut approximer la loi Binomiale B(n,p) par la
    loi normale N(m s) avec mnp et sv(npq).
  • Létude de somme de v.a indépendantes et de même
    loi joue un rôle capital en statistique, cest le
    théorème Central Limite qui établit la
    convergence vers la loi de Gauss sous des
    hypothèses peu contraignantes.
  • Nous le rappelons une nouvelle fois, pour en
    donner ensuite ses applications aux lois
    déchantillonnage.

31
THEOREME FONDAMENTALTHEOREME CENTRAL LIMITE
  • Soit n variables aléatoires X1,X2,,Xn
  • - indépendantes,
  • - de même loi,
  • - de même espérance mathématique m,
  • - de même variance ,
  • Alors, lorsque n est suffisamment grand, la loi
    de probabilité de la variable aléatoire Moyenne
    Mn (X1X2Xn)/n tend en loi vers la loi
    normale .

32
THEORIE DE LECHANTILLONNAGE
  • Comme on la vu, en statistique, il est en
    général impossible détudier un caractère sur
    toute une population de taille élevée,
    cest-à-dire de faire un recensement.
  • Avant daborder le problème de lestimation de
    paramètres inconnus de la population, il est
    indispensable de commencer par létude de
    léchantillonnage.
  • Dans ce cas, les paramètres du caractère étudié
    dans la population sont connus, et on en déduit
    les propriétés sur lensemble des échantillons
    prélevés dans la population.
  • Nous nenvisagerons que des échantillons
    aléatoires, cest-à-dire que tout élément de
    léchantillon est choisi au hasard, et de plus,
    les choix sont indépendants car supposés avec
    remise.

33
LOI DECHANTILLONNAGE DE LA MOYENNE
  • On considère une population de taille N élevée,
    une variable aléatoire X définissant le caractère
    étudié, avec E(X)m, et s(X) s .
  • On prélève un échantillon de taille n, nltltN,
    c.a.d on procède à n épreuves indépendantes
    auxquelles correspondent n v.a X1,X2,,Xn, de
    même loi que X.
  • Soit la v.a Yn(X1X2Xn)/n, elle associe à tout
    échantillon de taille n, la v.a Moyenne de
    léchantillon.
  • Daprès le théorème central Limite, la v.a Yn
    suit  approximativement  une loi Normale.

34
EN PRATIQUE
  • Valeurs caractéristiques de cette loi
  • E(Yn)m et V(Yn)s²/n ou bien s(Yn)s/vn.
  • En pratique, quand n devient grand, ngt30, la
    loi de Yn peut être approchée par la loi normale
    N(m,s/vn).

35
LOI DECHANTILLONNAGE DE LA FREQUENCE
  • On étudie, dans une population de taille N
    élevée, un caractère à deux éventualités,
    cest-à-dire une épreuve de Bernoulli.
  • On obtient une v.a X tq E(X)p, et V(X)p(1-p).
  • On prélève un échantillon de taille n, nltltN,
    (épreuve répétée n fois de façon identique et
    indépendante).
  • On obtient n v.a X1,X2,,Xn de même moi que X.
  • La v.a Fn(X1X2Xn)/n associe à tout
    échantillon de taille n la fréquence de succès
    sur cet échantillon.
  • Alors E(Fn)p et V(Fn)(p(1-p))/n.
  • Quand n devient grand (ngt50), la loi de Fn
    peut être approchée par la loi normale
    .

36
EN PRATIQUE
  • On prélève indépendamment et avec remise n
    individus dune population séparée en deux
    sous-populations A et son complémentaire , de
    proportions respectives p et 1-p.
  • Soit K le nombre dindividus de la
    sous-population A obtenus dans léchantillon. On
    sait que K suit une loi binomiale B(n , p).
  • Notons F K/n, la fréquence empirique de A.
  • F est la moyenne arithmétique de n v.a de
    Bernoulli de paramètre p, indépendantes.
  • Donc E(F)p et V(F)(p(1-p))/n.
  • Et si n est grand, F suit N(pv(p(1-p)/n)) en
    raison de la loi déchantillonnage de la
    fréquence (conséquence du théorème central
    limite).

37
LIEN AVEC LINTERVALLE DE FLUCTUATION
  • Or on sait que, pour la loi normale N(m,s),
  • lintervalle de fluctuation au seuil 95 est
  • m-1,96s m1,96s.
  • Donc, lintervalle de fluctuation à 95 de p est
  • Environ 95 des échantillons aléatoires de taille
    n fournissent une fréquence comprise dans cet
    intervalle.
  • Ce résultat est très important car il mesure la
    variabilité  naturelle  des phénomènes
    aléatoires.

38
APPROXIMATION DU PROGRAMME DE SECONDE
  • Dans le programme de seconde, il est donné une
    version simplifiée de cet intervalle en le
    majorant .
  • En effet, la fonction p?p(1-p) atteint son
    maximum pour p1/2, on a donc, pour tout p,
    p(1-p) 1/4 et on en déduit que
  • Aussi lintervalle I1
  • est inclus dans lintervalle I2
    .

39
VALEURS DE p
  • Dans le programme de Seconde, il est mentionné,
    de plus, que p doit être compris entre 0,2 et
    0,8.
  • La raison en est que lapproximation est trop
    grossière pour les valeurs de p inférieures à 0,2
    (ou supérieures à 0,8, puisquil y a symétrie de
    la formule p(1-p) ).
  • Le tableau suivant compare les nombres
    1,96/v(p(1-p)/n) et 1/v(n), pour n25 et n100,
    et pour des valeurs de p entre 0,1 et 0,5.
  • Rappelons que ces nombres ne sont toutefois pas
    supposés être égaux puisque I2 contient I1.
  • Plus de 95 des échantillons aléatoires de taille
    n fournissent une fréquence appartenant à I2.

40
COMPARAISON DE CES DEUX NOMBRES
n n 25 n 25 n 100 n 100
p 1,96v( p(1-p)/n) 1/v(n) 1,96v(p(1-p)/n) 1/v(n)
P0,1 0,118 0,2 0,059 0,1
P0,2 0,157 0,2 0,078 0,1
P0,25 0,170 0,2 0,085 0,1
P0,3 0,180 0,2 0,090 0,1
P0,35 0,187 0,2 0,093 0,1
P0,4 0,192 0,2 0,096 0,1
P0,45 0,195 0,2 0,097 0,1
P0,5 0,196 0,2 0,098 0,1
41
FLUCTUATION DE LA FREQUENCE SELON LES ECHANTILLONS
  • On peut expérimenter, par simulation à laide des
    T.I.C, quenviron plus de 95 des échantillons de
    taille n fournissent une fréquence comprise dans
    lintervalle
  • .
  • Pour p donné, on peut faire calculer les bornes
    de cet intervalle pour quelques valeurs de n, et
    faire remarquer quil faut multiplier la taille
    de léchantillon par k² pour diviser par k
    lamplitude de lintervalle.
  • On pourra calculer lamplitude correspondant aux
    échantillons de taille 1000, souvent retenue dans
    les sondages.

42
EXEMPLE DAPPLICATION
  • On considère un échantillon de 400 pièces issues
    dune fabrication où 10 sont défectueuses.
  • Soit K la v.a qui mesure le nombre de pièces
    défectueuses, K est une v.a de Bernoulli
    B(4000,1).
  • Notons F K/n, la fréquence empirique de
    lévénement  la pièce est défectueuse , sur un
    échantillon de taille n.
  • F est la moyenne arithmétique de n v.a de
    Bernoulli de paramètre p, indépendantes.
  • Donc E(F)p0,1 et V(F)(p(1-p))/n(0,10,9)/400.
  • Quand n est grand, F suit N(pv(p(1-p)/n)), donc
    ici F suit
  • N(0,1 v((0,10,9)/400)).
  • Donc on peut sattendre à trouver dans 95 des
    cas, un pourcentage de défectueux dans
    léchantillon, compris entre

  • et
  • C.a.d F est comprise entre 0,0706 et 0,1294.
  • Ou encore, entre 7,1 et 12,9, dans 95 des cas.

43
III. PRISE DE DÉCISION
  • SITUATIONS PROBLEMES

44
INTRODUCTION
  • Dans les exercices qui suivent, on a besoin de
    générer des nombres pseudo-aléatoires, on
    rappelle ci-après quelques méthodes utilisées sur
    calculatrice et tableur.
  • Le schéma de base pour simuler une v.a de
    Bernoulli est de simuler une urne bicolore, qui
    servira aussi à simuler le lancer dun dé.
  • La plupart des calculatrices, même les modèles
     collège , et les tableurs sont pourvues dun
    générateur de nombres pseudo-aléatoires qui
    simule le tirage dun nombre décimal au hasard
    dans lintervalle 0, 1 (cest-à-dire une
    réalisation dune variable aléatoire de loi
    uniforme sur lintervalle 0, 1 ).
  • Sur une calculatrice, ce générateur de nombres
    aléatoires correspond à la fonction  random 
    souvent notée rand ou Ran. Sur un tableur, il
    correspond à la fonction ALEA(), introduite avec
    des parenthèses vides.

45
SIMULATION DUN URNE BICOLORE
  • À partir de ce générateur de nombres aléatoires,
    on peut facilement simuler un tirage au hasard
    dans une urne bicolore.
  • Supposons que la proportion des boules dont la
    couleur nous intéresse soit, dans lurne de 30 .
  • Sur un tableur, linstruction ALEA()0,30
    correspond au tirage au hasard dun nombre de
    lintervalle 0,30  1,30.
  • En prenant la partie entière, le résultat vaut 0
    si le nombre appartient à 0,30  1 et 1 si le
    nombre appartient à 1  1,30.
  • Compte-tenu des longueurs respectives de ces
    intervalles, on a 70 de chances davoir 0 et 30
    de chances davoir 1 (voir le graphique).

46
SIMULATION (suite)
  • Sur une calculatrice, il suffit dentrer
    linstruction rand 0.3 ou Ran 0.3 et de
    faire plusieurs fois ENTER ou EXE pour simuler
    des tirages avec remise dans cette urne, en ne
    tenant compte que de la partie avant la virgule
    (0 ou 1).
  • Sur un tableur, il suffit dentrer dans une
    cellule la formule ENT(ALEA()0,3) puis
    dapprocher le pointeur de la souris du coin
    inférieur droit de la cellule.
  • Lorsque le pointeur de la souris prend la forme
    dune croix noire, on enfonce le bouton gauche
    puis on  glisse  vers le bas pour constituer un
    échantillon (on nomme  recopie  cette
    manipulation).
  • On peut ensuite sélectionner léchantillon (avec
    le pointeur en forme de croix blanche) puis le
    recopier vers la droite (avec le pointeur en
    forme de croix noire) pour constituer plusieurs
    échantillons.

47
CONTRÔLE DE QUALITE
  • Dans le contrôle de qualité industrielle, on
    sinterroge sur le réglage dune machine lorsque
    dans un lot de pièces produites, la fréquence des
    défauts observés est peu probable au regard du
    modèle indiquant une probabilité p de défauts.
  • Cest-à-dire quon veut prendre une décision à
    partir de létude dun échantillon.
  • Rappelons que dans ce cas on connaît les
    paramètres de la v.a mère, c.a.d ici la
    probabilité théorique de défauts dans la chaîne
    de fabrication.

48
DEFAUTS DE PEINTURE
  • Dans une usine automobile, on contrôle les
    défauts de peinture de type
  •  grains ponctuels sur le capot .
  • Lorsque le processus est sous contrôle,
  • on a 20  de ce type de défauts.
  • Lors du contrôle aléatoire de 50 véhicules, on
    observe 26  de défauts
  • (13 sur 50).
  • Faut-il sinquiéter ?

49
RESOLUTION
  • En supposant que la situation est sous contrôle,
    c.a.d que la proportion présentant ce défaut est
    de 0,20, un échantillon aléatoire de 50 véhicules
    présentera une proportion de défauts comprise,
    dans plus de 95 des cas, entre
  • 0,20-1/v50 et 0,201/v50
  • soit entre environ 6 et 34.
  • Il ny a donc pas lieu de considérer une
    observation de 26 comme  anormale .

50
RESPECT DE LA PARITE
  • Deux entreprises A et B recrutent dans un bassin
    demploi où il y a autant de femmes que dhommes,
    avec la contrainte du respect de la parité.
  • Dans lentreprise A, il y a 100 employés dont 43
    femmes.
  • Dans lentreprise B, il y a 2500 employés dont
    1150 femmes.
  • Quelle est lentreprise qui respecte le mieux la
    parité ?

51
RESOLUTION
  • Dans lentreprise A, il y a 100 employés dont 43
    femmes (soit 43) dans lentreprise B, il y a
    2500 employés dont 1150 femmes (soit 46).
  • Or 46 est plus proche de 50 que 43, les
    chiffres parlent deux-mêmes, pourrait-on dire,
    et B respecte mieux la parité que A.
  • Si on admet que la parité, cest exactement 50
    de femmes, il est vrai que B en est plus proche
    que A. Mais une telle définition a-t-elle ici un
    sens?
  • La parité signifie que lidentité sexuelle
    nintervient pas au niveau du recrutement, c.a.d
    quau niveau du caractère étudié homme ou femme,
    les résultats observés pourraient être obtenus
    par choix, au hasard, des individus dans la
    population.

52
RESOLUTION (suite)
  • Dans ce cadre, lentreprise A est assimilable à
    un échantillon de taille 100 du modèle de
    Bernoulli, avec p0,5, et lentreprise B à un
    échantillon de taille 2500.
  • Lintervalle de fluctuation de p pour
    lentreprise A est 0,40,6, et pour
    lentreprise B de 0,480,52.
  • La valeur 0,43 pour lentreprise A est dans
    lintervalle de fluctuation, alors que la valeur
    0,46 ne lest pas pour B.
  • Autrement dit, pour B, la proportion de 46
    sobserve dans moins de 5 des échantillons
    obtenus selon le modèle accordant une probabilité
    égale dobtenir un homme et une femme.
  • On peut alors rejeter lhypothèse selon laquelle
    cette entreprise respecte la parité.

53
ECHANTILLON CONFORME OU REPRESENTATIF
  • Un échantillon est représentatif ou conforme si f
    , la fréquence de léchantillon, appartient à
    lintervalle de fluctuation de la fréquence
    théorique p à un niveau de confiance donné.
  • Les problèmes qui précèdent reviennent donc à se
    demander si un échantillon est conforme.
  • Ce type de problème se prête bien à lécriture
    dun algorithme qui permettra de savoir si
    léchantillon est conforme.
  • Dans lalgorithme suivant, on entre la fréquence
    de léchantillon, et en réponse on a la prise de
    décision léchantillon est conforme ou pas, au
    risque de 5.
  • Cet algorithme comporte un contrôle de saisie.
  • On peut également écrire un algorithme où on
    entrerait le nombre de personnes qui ont le
    caractère étudié, et qui calculerait également f
    .

54
ALLERGIE
  • Dans une population de grand effectif, on a
    observé que 40 des individus sont allergiques à
    un médicament A.
  • Dans un échantillon de 100 individus, 31 révèlent
    une allergie à A.
  • Au seuil de 5, peut-on déduire que léchantillon
    est représentatif de la population pour
    lallergie A?

55
RESOLUTION
  • On détermine lintervalle
  • Ce qui donne
  • Comme f 0,31 appartient à cet intervalle, on
    accepte H0 au seuil de 5.
  • Conclusion léchantillon est représentatif de la
    population allergique à A.

56
ALGORITHMEECHANTILLON CONFORME
  • Déclaration
  • Variable p, f en Numérique
  • Variable n en Entier
  • Entrée
  • Afficher Entrer la valeur de la proportion du
    caractère dans la population totale
  • Lire p
  • Afficher Entrer la taille de léchantillon
  • Lire n
  • TantQue nlt25
  • Afficher Léchantillon est trop petit.
    Recommencer
  • Afficher Entrer la taille de
    léchantillon
  • Lire n
  • FinTantQue
  • Afficher Entrer la valeur de la fréquence dans
    léchantillon
  • Lire f
  • Traitement et Sortie
  • Si ((p-1/racine(n))ltf) et (flt(p1/racine(n)))
    Alors
  • Ecrire Au risque de 5, léchantillon est
    représentatif
  • Sinon Ecrire Au risque de 5, léchantillon
    nest pas représentatif

57
PROGRAMME ALGOBOXECHANTILLON CONFORME
  • 1 VARIABLES
  • 2 p EST_DU_TYPE NOMBRE
  • 3 f EST_DU_TYPE NOMBRE
  • 4 n EST_DU_TYPE NOMBRE
  • 5 DEBUT_ALGORITHME
  • 6 AFFICHER "Entrer la proportion du caractère, en
    valeur décimale, dans la population totale"
  • 7 LIRE p
  • 8 AFFICHER "Entrer la taille de l'échantillon"
  • 9 LIRE n
  • 10 TANT_QUE (nlt25) FAIRE
  • 11 DEBUT_TANT_QUE
  • 12 AFFICHER "La taille de l'échantillon
    est trop petite. Recommencer."
  • 13 AFFICHER "Entrer la taille de
    l'échantillon"
  • 14 LIRE n
  • 15 FIN_TANT_QUE
  • 16 AFFICHER "Entrer la fréquence du caractère, en
    valeur décimale, dans l'échantillon"
  • 17 LIRE f
  • 18 SI (((p-1/sqrt(n))ltf) ET (flt(p1/sqrt(n)))
    ALORS
  • 19 DEBUT_SI
  • 20 AFFICHER "Au risque de 5, cet
    échantillon est représentatif de la population"
  • 21 FIN_SI
  • 22 SINON
  • 23 DEBUT_SINON
  • 24 AFFICHER "Au risque de 5, cet
    échantillon n'est pas représentatif de la
    population"
  • 25 FIN_SINON
  • 26 FIN_ALGORITHME

58
MALADIE DES REINS
  • A lhôpital, on peut lire une affiche où il est
    écrit  1 français sur 20 est malade des reins
    et ne le sait pas. Pensez à vous faire
    dépister .
  • On considère deux échantillons, le premier de
    taille 1000, constitué de personnes entre 0 et 35
    ans et le second de taille 2000, constitué de
    personnes entre 36 et 80 ans.
  • Pour, le premier 18 personnes ont des problèmes
    de reins, pour le second, il sont 120.
  • Dire, pour chaque échantillon sil est
    représentatif de la population française.

59
EXECUTIONS
  • 2ième échantillon
  • . n2000, p0.05, f 120/2000
  • Algorithme lancé
  • Entrer la proportion du caractère, en valeur
    décimale, dans la population totale
  • Entrer la taille de l'échantillon
  • Entrer la fréquence du caractère, en valeur
    décimale, dans l'échantillon
  • Au risque de 5, cet échantillon est
    représentatif de la population
  • Algorithme terminé
  • 1ier échantillon
  • n1000, p0.05, et f18/1000
  • Algorithme lancé
  • Entrer la proportion du caractère, en valeur
    décimale, dans la population totale
  • Entrer la taille de l'échantillon
  • Entrer la fréquence du caractère, en valeur
    décimale, dans l'échantillon
  • Au risque de 5, cet échantillon n'est pas
    représentatif de la population
  • Algorithme terminé

60
EN RESUME
  • Le raisonnement pour apprécier si une fréquence
    observée f sur un échantillon de taille n est
    compatible ou non avec un modèle de Bernoulli de
    probabilité p, est le suivant
  • on regarde si cette fréquence est dans
    lintervalle de fluctuation à 0,95 relatif aux
    échantillons de taille n du modèle.
  • Cest-à-dire si lécart entre f et p est
    probable, au sens où le hasard produirait un tel
    écart dans 95 des échantillons envisageables.
  • Si f est en dehors de lintervalle de
    fluctuation, on considère que lobservation nest
    pas compatible avec le modèle, en ce sens avec un
    tel modèle elle ne sobserverait que dans 5 des
    échantillons de taille n (avec un risque de
    prendre la mauvaise décision dans 5 des cas).
  • Ce type de raisonnement est à la base de ce quon
    appelle parfois la  preuve statistique .

61
TAUX ANORMAL DE LEUCEMIES
  • Une petite ville des États-Unis a connu 9 cas de
    leucémie chez de jeunes garçons en lespace de 10
    années.
  • Doit-on, comme lont alors affirmé les autorités,
    en accuser le hasard ?
  • Woburn est une petite ville industrielle du
    Massachusetts, au Nord-Est des États-Unis.
  • Du milieu à la fin des années 1970, la communauté
    locale sémeut dun grand nombre de leucémies
    infantiles survenant en particulier chez les
    garçons dans certains quartiers de la ville.
  • Les familles se lancent alors dans lexploration
    des causes et constatent la présence de décharges
    et de friches industrielles ainsi que lexistence
    de polluants.
  • Dans un premier temps, les experts
    gouvernementaux concluent quil ny a rien
    détrange.
  • Mais les familles sobstinent et saisissent leurs
    propres experts.
  • Une étude statistique montre quil se passe sans
    doute quelque chose  détrange .

62
TABLEAU DE DONNEES
  • Le tableau suivant résume les données
    statistiques concernant les garçons de moins de
    15 ans, pour la période 1969-1979 (Source 
    Massachusetts Department of Public Health).

Population des garçons de moins de 15 ans à Woburn selon le recensement de 1970  n Nombre de cas de leucémie infantile observés chez les garçons à Woburn entre 1969 et 1979 Fréquence des leucémies aux Etats-Unis (garçons)  p
5 969 9 0,000 52
63
RESOLUTION
  • La question statistique qui se pose est de savoir
    si le hasard seul peut raisonnablement expliquer
    le nombre de leucémies observées chez les jeunes
    garçons de Woburn, considérés comme résultant
    dun échantillon prélevé dans la population
    américaine.
  • Les conditions requises pour appliquer le
    résultat du cours ne sont pas toutes respectées
    ici (p nest pas comprise entre 0,2 et 0,8). Il
    faut donc observer de plus près la fluctuation
    déchantillonnage.
  • La population des États-Unis étant très grande
    par rapport à celle de Woburn, on peut considérer
    que léchantillon résulte dun tirage avec remise
    et simuler des tirages de taille n avec le
    tableur.

64
GENERATION DE NOMBRE ALEATOIRE
  • On simule sur le tableur 100 échantillons de
    taille n 5 969 prélevés au hasard dans une
    population de garçons où la probabilité de
    leucémie est p 0,000 52 (cas  normal ) en
    utilisant linstruction  ENT(ALEA()0,000 52)
    .
  • Linstruction ALEA() génère un nombre aléatoire
    dans lintervalle 0, 1.
  • Or, choisir un réel au hasard entre 0 et 1, cest
    le choisir suivant la loi uniforme sur 01.
  • Linstruction ALEA()0,000 52 génère donc un
    nombre aléatoire dans lintervalle 0,000 52 
    1,000 52.
  • Linstruction ENT(ALEA()0,000 52), où ENT
    désigne la partie entière, vaut donc la plupart
    du temps 0  non malade  (en fait avec une
    probabilité égale à 1-0,000520,99948),et vaut 1
     malade  avec la probabilité égale à 0,000 52.
  • Sur chaque échantillon, en faisant la somme, on
    obtient le nombre de cas observés, sous
    lhypothèse dune probabilité  normale .

65
SIMULATION SUR TABLEUR
  • On représente ensuite sur un graphique les 100
    résultats observés sur les échantillons ainsi
    simulés.
  • Les simulations montrent que le nombre de cas
    observés à Woburn (9 cas) est extrêmement rare
    (de lordre de 1 des simulations sur un grand
    nombre dessais), sous lhypothèse dune
    probabilité  normale . On peut donc rejeter
    lhypothèse que léchantillon soit compatible
    avec le modèle.
  • Il est donc raisonnable de penser que le niveau
    très  significativement  élevé des leucémies
    infantiles observées chez les garçons de Woburn
    nest pas dû au hasard.
  • Ce taux anormalement élevé de leucémies est
    officiellement confirmé par le Département de
    Santé Publique du Massachusetts en avril 1980.
    Les soupçons se portent alors sur la qualité de
    leau de la nappe phréatique qui, par des
    forages, alimente la ville. On découvre ainsi le
    syndrome du trichloréthylène.

66
METHODE DETAILLEE
  • On construit 100 échantillons de taille 5969 où
    chaque colonne contient un échantillon, et chaque
    cellule contient linstruction ENT(ALEA()0,000
    52).
  • On crée une ligne où on fait la somme de chaque
    colonne, cette ligne contient le cas de leucémies
    dans chaque échantillon.
  • On crée ensuite un graphique où on aura en
    abscisse chaque échantillon et en ordonnée le
    nombre de cas de leucémies.

67
IV. THEORIE DE LÉSTIMATION
68
PROBLEMATIQUE
  • La problématique est ici tout autre.
  • On ne connaît pas un ou des paramètres dune v.a
    liée à une population mère.
  • On veut estimer les valeurs caractéristiques
    inconnues de cette v.a, à laide de létude dun
    échantillon deffectif n (ngt30) issu de cette
    population.

69
ESTIMATION
  • On suppose vérifiée lhypothèse déchantillonnage
    aléatoire simple.
  • Deux types destimation
  • - Lestimation ponctuelle
  • - Lestimation par intervalle de confiance.
  • Ceci en vue dune prise de décision à partir dun
    échantillon.

70
ESTIMATION PONCTUELLE
  • Les lois de grands nombres justifient lusage de
    comme estimation de m, et lusage de s² comme
    estimation de s²car tend p.s vers m et S²
    tend p.s vers s².
  • De même la fréquence empirique f dun événement
    est une estimation de sa probabilité.
  • Les v.a , S², et F sont appelées estimateurs
    de m, s², et p respectivement.

71
ESTIMATEUR
  • Soit t un paramètre à estimer, et T un
    estimateur.
  • Qualités dun estimateur
  • - Il doit être convergent quand n tend vers
    linfini, T doit tendre vers t.
  • - Il doit être précis converger assez vite.
  • - Il doit être sans biais cest-à-dire E(T) doit
    être égal à t.
  • Le biais
  • Lerreur destimation entre T et t est la v.a T
    - t.
  • On décompose la différence T - t (T -
    E(T))(E(T) - t)
  • T-E(T) représente les fluctuations aléatoires
    de T autour de sa valeur moyenne.
  • E(T)-t est assimilable à une erreur
    systématique due au fait que T varie autour de sa
    valeur centrale E(T), et non autour de t.
  • La quantité E(T)-t sappelle le biais.
  • Il est donc souhaitable dutiliser des
    estimateurs sans biais tq E(T)t.

72
THEOREMES SUR LESTIMATION
  • 1) Si (X1, . . . ,Xn) est un échantillon d'une
    loi quelconque de moyenne m, alors X (X1 . . .
    Xn)/n est un estimateur sans biais de m.
  • 2) En particulier, si (X1, . . . ,Xn) est un
    échantillon de Bernoulli B(p), p ? 0, 1, alorsF
    (X1 . . . Xn)/n est un estimateur sans
    biais de p.
  • 3) Si (X1, . . . ,Xn) est un échantillon d'une
    loi quelconque de variance s² finie, alors S²
    (1/n) S(Xi - X )² est un estimateur biaisé de
    s².
  • En effet ES² ((n - 1)/n)s².
  • Par contre l'estimateur corrigé
  • S²corr (n/n - 1)S²(1/(n - 1)) S(Xi - X )²
    est sans biais.
  • Pour une démonstration de lestimation de la
    variance et du biais, voir un cours de
    statistique de luniversité de Brest à ladresse
  • http//www.math.univ-brest.fr/perso/catherine.rain
    er/polystat.pdf

73
APPLICATIONA LECHANTILLONNAGE
  • On considère une v.a X définissant le caractère
    étudié, avec E(X)m et .
  • Léchantillon a pour moyenne et pour écart
    type s.
  • - La meilleure estimation de m est .
  • - La meilleure estimation de est
    ,
  • où le coefficient est une
    correction du biais.
  • On considère une population où chaque élément
    peut, ou non, posséder une propriété.
  • Soit p la proportion déléments de la population
    mère et f la proportion déléments de
    léchantillon possédant cette propriété.
  • - La meilleure estimation de p est f.

74
ENGRENAGES
  • Une usine fabrique des engrenages.
  • On mesure en mm le diamètre de 100 engrenages
  • La moyenne de léchantillon est 23,644 mm, son
    écart type est 0,018.
  • Une estimation de la moyenne de la production
    totale est donc 23,644 mm, et une estimation de
    lécart type de la production totale est
  • 0,018v(100/99)0,0181.

Diamètre 23,5923,61 23,6123,63 23,6323,65 23,6523,67 23,6723,68
Effectif 6 8 51 30 5
75
ENGRENAGES (suite)
  • Dans un échantillon de 150 pièces, on a relevé 3
    pièces défectueuses.
  • Une estimation du nombre de pièces défectueuses
    dans la production est 3/1500,02 soit 2.
  • On peut donc estimer que 2 des pièces produites
    sont défectueuses.

76
ESTIMATION PAR INTERVALLE DE CONFIANCE
  • Lestimation ponctuelle est souvent peu réaliste,
    il est donc plus intéressant de fournir une
    fourchette destimation, et de plus lestimation
    ponctuelle nindique pas le risque que lon a de
    se tromper.
  • Il sagit de déterminer un intervalle contenant
    la valeur de la moyenne ou de la fréquence avec
    un risque derreur décidé à lavance.
  • Puis de prendre des décisions sur la population
    mère à partir de létude dun ou de plusieurs
    échantillons.

77
INTERVALLE DE CONFIANCE DE LA MOYENNE
  • La loi déchantillonnage de la moyenne est la loi
    normale .
  • La moyenne m est supposée inconnue et on a
    calculé la moyenne dun échantillon de
    taille n.
  • Lintervalle de confiance de m au risque de 5
    est lintervalle centré en
  • .

78
DEMONSTRATION
  • La loi déchantillonnage de la moyenne est
    la loi normale N(m,s/vn).
  • Soit Y la v.a Y suit la
    loi N(01).
  • Soit a le risque derreur ou seuil de risque, a
    est une probabilité fixée à lavance (par exemple
    a 0,05).
  • La probabilité pour que Y nappartienne pas à
    -tt est P(lYlgtt)a ou encore P(lYllt t)1-a.
  • Ceci donne P(-tlt Ylt t)1-a
  • Soit
  • Cest à dire


79
INTERPRETATION
  • On a obtenu ce
    qui signifie
  • que pour 100(1-a) des échantillons,
  • m appartient à lintervalle
    .
  • Cet intervalle est lintervalle de confiance de
    la moyenne au seuil de risque a.
  • On dit que 1-a est le coefficient de confiance.
  • t est le nombre tel que , et se
    lit dans la table de la loi N(0,1).
  • On a

a 0,01 0,05 0,10
t 2,58 1,96 1,645
80
AMPOULES ELECTRIQUES
  • On suppose que la durée de vie dune ampoule
    électrique, exprimée en heures, suit la loi
    normale de moyenne M inconnue et décart type s
    20.
  • Une étude sur un échantillon de 16 ampoules donne
    une moyenne de vie égale à 3000.
  • Déterminer lintervalle de confiance de m au
    seuil de 10.
  • Résolution
  • a0,1 doù t1,645.
  • Un intervalle de confiance de M est
  • 3000-1,645(20/v16) 30001,645(20/v16)
  • 2991 3009.

81
INTERVALLE DE CONFIANCE DE LA FREQUENCE
  • La loi déchantillonnage de la fréquence est la
    loi normale .
  • p étant inconnu, lécart type
    est remplacé par son estimation ponctuelle
  • Par analogie avec la méthode précédente,
    lintervalle de confiance de la fréquence au
    risque 5 est lintervalle centré en f

82
SONDAGE DANS LES TRANSPORTS
  • Un sondage dans une commune révèle que sur les
    500 personnes interrogées, 42 des personnes sont
    mécontentes de lorganisation des transports.
  • Déterminer au seuil de risque de 5, un
    intervalle de confiance du pourcentage de
    personnes mécontentes dans la commune.

83
RESOLUTION
  • Dans léchantillon, la fréquence de personnes
    mécontentes est f0,42.
  • La taille de léchantillon est n500,lintervalle
    de confiance de la fréquence est donc

  • Le pourcentage de personnes mécontentes dans la
    commune a une probabilité égale à 95 de se
    trouver dans lintervalle 37,6744,21.

84
V. ÉSTIMATION DUNE PROPORTION
  • SITUATIONS PROBLEMES

85
PROGRAMMEDE SECONDE
  • On peut modéliser de nombreuses situations
    aléatoires à laide de lurne de Bernoulli, c.a.d
    comprenant deux sortes de boules.
  • La situation de référence est une urne contenant
    plusieurs centaines de boules rouges et blanches,
    dans une proportion inconnue p de boules rouges.
  • On cherche à estimer p à partir dun échantillon
    de taille n.
  • On note X la v.a correspondant au nombre de
    boules rouges dans léchantillon. X est une v.a
    binomiale et on note F la v.a X/n.
  • On considère un échantillon de taille n, parmi
    tous ceux quon aurait pu obtenir. f est une
    réalisation de F.
  • On sait quenviron 95 des fréquences observées
    sont dans lintervalle p-1/vn p1/vn.

86
INTERVALLE DE CONFIANCE
  • Comme P(p-1/vn F p1/vn) 0,95 équivaut à
  • P(F-1/vn p F1/vn) 0,95
  • Lappartenance f à p-1/vn p1/vn équivaut à
    celle de p à
  • f-1/vn f1/vn, appelée fourchette de sondage.
  • Ceci permet de dire que, parmi tous les
    échantillons de taille n possibles, 95 des
    intervalles associés f-1/vn f1/vn contiennent
    le nombre p.
  • Pour exprimer lidée quavant tirage de
    léchantillon on avait 95 de chances dobtenir
    une fourchette f-1/vn f1/vn qui contienne p,
    on dira que le fourchette obtenue, une fois
    léchantillon tiré, est un intervalle de
    confiance au niveau 95 de p.
  • Il ne dépend que de la taille n de
    léchantillon et non de la taille de la
    population.

87
ESTIMATION DE p INCONNUE
  • A la problématique  combien faut-il tirer de
    boules dans une urne de Bernoulli pour pouvoir
    faire une estimation de sa composition avec une
    précision donnée à priori? , on peut répondre
    en tirant n boules avec remise, on obtient une
    estimation de par un intervalle damplitude 2/vn,
    avec une confiance de plus de 95.
  • Si on tire 1000 boules (avec remise), on a une
    estimation de p, à plus de 95, par un intervalle
    damplitude 6.
  • Si par exemple le tirage de 1000 boules fournit
    une fréquence de boules rouges égale à 0,47, on
    peut estimer avec plus de 95 de confiance, que
    la proportion p de boules rouges dans lurne est
    comprise entre 0,44 et 0,50.
  • Les sondages, par exemple, sont souvent pratiqués
    sur un échantillon de 1000 personnes.

88
SOMME DE DEUX DÉS
  • Lapproche fréquentiste des probabilités est une
    application de la loi faible des grands nombres.
  • En voici un grand classique
  • On lance deux dés équilibrés dont les faces sont
    numérotées 1, 2, 3, 4, 5 et 6. On additionne les
    nombres lus sur les faces supérieures. On gagne
    si on obtient 9. Quelle est la probabilité de
    gagner ?

89
RESOLUTION
  • A ce stade, les élèves ne connaissant pas la
    probabilité dapparition du 9.
  • Ils peuvent simuler des échantillons de taille de
    plus en plus grande et estimer la probabilité
    dapparition du 9.
  • On peut ensuite comparer les résultats avec la
    probabilité effective, trouvée à laide dun
    arbre.
  • La probabilité théorique est de 1/9 soit environ
    0,11111.

90
SUR TABLEUR
  • La simulation du lancer dun dé se fait par
    linstruction ENT(6ALEA()1).
  • Ceci car ALEA() fournit un nombre aléatoire entre
    0 et1 (1 non compris).
  • 6ALEA() fournit un nombre aléatoire entre 0 et 6
    (6 non compris).
  • Donc en opérant la translation de 1, on a
    ENT(6ALEA()1) fournit un nombre entier de 1 à
    6.
  • Manipulation sur tableur
  • Dans la colonne A on numérote les échantillons,
    par exemple à partir de la ligne 4.
  • En colonnes B et C , on simule des lancers.
  • En colonne D, on écrit le test du type
    SI(SOMME(B4C49)10)).
  • Si le test est vérifié, la valeur correspondante
    est 1, sinon elle vaut 0.

91
SUR TABLEUR (suite)
  • En colonne E, on calcule les fréquences
  • - la fréquence du premier échantillon sur la
    1ière ligne,
  • - la fréquence du 1ier et du 2ième échantillon
    sur la 2ième ligne,
  • - la fréquence du 1ier, du 2ième et du 3ième
    échantillon sur la 3ième ligne.
  • Le premier échantillon considéré est donc de
    taille 1, le 2ième de taille 2, le 3ième de
    taille 3, et ainsi de suite jusquà 100.
  • Dans la colonne E, on a écrit, en 3ième ligne
    SOMME(D4D6)/A6.
  • On voit quà partir dune certaine valeur de n,
    la fréquence tend vers la probabilité théorique.

92
FLUCTUATIONS DECHANTILLONNAGE
  • Si on fait plusieurs simulations, on peut
    observer des fluctuations déchantillonnage
    relativement importantes en augmentant la taille
    des échantillons jusquà 100.

93
Fluctuations déchantillonnage en augmentant la
taille des échantillons jusquà 5000
94
SONDAGE
  • Un candidat à une élection effectue un sondage
    dans sa circonscription comportant 85842
    électeurs  sur 1068 personnes interrogées, 550
    déclarent vouloir voter pour ce candidat.
  • Pour gagner les élections au premier tour, un
    candidat doit obtenir 50 des voix.
  • Le candidat affirme   si les élections avaient
    eu lieu le jour du sondage et si les réponses au
    sondage étaient sincères, alors jaurai été élu
    au premier tour .
  • Quen pensez-vous ?

95
RESOLUTION
  • Nous sommes dans les conditions requises par le
    cours, n vaut 1068.
  • Ici, f 0,51498 et n 1068 donc la fourchette
    de sondage est 0,4843  0,5456 au niveau 0,95.
  • Daprès la fourchette de sondage, p a 95 de
    chance dêtre dans cet intervalle.
  • Donc on ne peut pas certifier que p sera
    supérieur ou égal à 0,5.
  • Laffirmation du candidat est très hâtive, on ne
    peut pas laccepter.

96
PREMIER TOUR DES PRESIDENTIELLES 2002
  • Voici un extrait darticle, publié dans le
    journal  Le Monde  par le statisticien Michel
    Lejeune, après le premier tour de lélection
    présidentielle de 2002.
  •  Pour les rares scientifiques qui savent comment
    sont produites les estimations, il était clair
    que l'écart des intentions de vote entre les
    candidats Le Pen et Jospin rendait tout à fait
    plausible le scénario qui s'est réalisé. En
    effet, certains des derniers sondages indiquaient
    18  pour Jospin et 14  pour Le Pen. Si l'on se
    réfère à un sondage qui serait effectué dans des
    conditions idéales ..., on obtient sur de tels
    pourcentages une incertitude de plus ou moins 3
    étant donné la taille de l'échantillon .... 

97
PRESIDENTIELLES 2002 ÉNONCÉ
  • 1. Si lon tient compte de lincertitude liée au
    sondage, entre quels pourcentages pourraient se
    situer réellement (à 95  de confiance) les deux
    candidats lorsque le sondage donne 18  pour lun
    et 14  pour lautre ?
  • 2. Représenter sur un même graphique les deux
     fourchettes  calculées à la question
    précédente. Peut-on prévoir lordre des
    candidats ?
  • Au premier tour de lélection présidentielle de
    2002, L. Jospin a obtenu 16,18  des voix et
    J.-M. Le Pen 16,86 .
  • 3. Expliquer la phrase  l'écart des intentions
    de vote entre les candidats Le Pen et Jospin
    rendait tout à fait plausible le scénario qui
    s'est réalisé .

98
RESOLUTION
  • 1. Pour L. Jospin, entre 15  et 21 . Pour J.-M.
    Le Pen, entre 11  et 17 .
  • 2. Un dessin possible.
  • Si on utilise ces fourchettes, on ne peut pas
    prévoir lordre des candidats car elles ont une
    partie commune.
  • 3. La phrase correspond au fait que les
    pourcentages obtenus à lélection sont situés
    dans les fourchettes du sondage.

99
VI. ÉVALUATION DE TRAVAUX AVEC TIC
100
INTRODUCTION
  • Les problèmes qui suivent sont des évaluations de
    travaux faits avec des TIC, du type  Epreuve
    pratique .
  • On trouve de très bons documents de ce type à
    ladresse
  • http//mslp.ac-dijon.fr/spip.php?article202
  • Dans le premier problème, on détaille, à la fin,
    les compétences mises en jeu dans la résolution
    de cette activité.
  • On rappelle les 4 compétences de base
  • o C1 savoir utiliser et compléter ses
    connaissances
  • o C2 sinformer, rechercher, extraire et
    organiser de linformation utile (écrite, orale,
    observable, numérique)
  • o C3 raisonner, argumenter, pratiquer une
    démarche scientifique, démontrer
  • o C4 communiquer à laide de langages et
    doutils adaptés.
  • On peut décliner ces 4 compétences dans le
    domaine du travail avec les TIC.
  • On essaiera, dans tous les cas, de développer
    lautonomie et linitiative chez lélève.

101
SURRESERVATION
  • Une compagnie aérienne dispose dun avion de 100
    places et vend 107 réservations.
  • Lobjectif est dévaluer la probabilité de
    surréservation de cette compagnie, autrement dit
    le risque que plus de 100 passagers se présentent
    à lembarquement.

102
  • 1. On suppose que toute personne réservant une
    place davion a une chance sur 10 de ne pas se
    présenter à lembarquement.
  • Réaliser une simulation du nombre de personnes se
    présentant à lembarquement dun vol de 100
    places pour 107 réservations, sur un échantillon
    aléatoire obtenu à laide dun tableur.
  • Pour cela, dans une feuille de calcul du tableur
  • saisir  ENT(ALEA()0,9)  dans la cellule A1 et
    recopier cette formule vers la droite jusquen
    DC1 pour obtenir 107 réalisations ,
  • saisir  SOMME(A1DC1)  dans la cellule DD1.
  • Appel n 1  Appeler le professeur pour valider
    cette simulation.
  • 2. Réaliser une simulation du nombre de personnes
    se présentant à lembarquement de 1 000 vols de
    100 places pour 107 réservations à chaque vol.
  • Appel n 2  Appeler le professeur pour valider
    cette simulation.
  • 3. Déterminer, pour cette simulation de 1 000
    vols, la proportion des cas où leffectif des
    passagers se présentant à lembarquement est
    supérieur à 100. Pour cela 
  • - dans une cellule de votre choix, utiliser la
    formule  NB.SI(DD1DD1000"gt100") ,
  • - dans une cellule de votre choix, en déduire la
    fréquence demandée.
  • Appel n 3  Appeler le professeur pour valider
    ces calculs.
  • 4. a) En utilisant la touche F9, réaliser
    plusieurs simulations, puis évaluer la
    probabilité que plus de 100 personnes se
    présentent à lembarquement.
  • b) Évaluer, en pourcentage, le risque de
    surréservation pour la compagnie aérienne.
  • Appel n 4  Appeler le professeur pour lui
    donner les réponses.

103
RESOLUTION
  • Tout type de tableur convient, par exemple Excel
    ou OpenOffice Calc.
  • Il suffit dinscrire la formule
     ENT(ALEA()0,9)  dans la cellule A1, de la
    recopier horizontalement pour quelle soit
    calculée 107 fois, puis deffectuer la somme.
  • Lélève doit comprendre que lorsque la formule
    affiche 1, le passager se présente à
    lembarquement et lorsquelle affiche 0, le
    passager ne se présente pas.
  • Il sagit de sélectionner les cellules de la
    simulation de la question 1. puis de recopier
    vers le bas.
  • Linstruction NB.SI fournit un effectif. On
    sattache à la différence qui est faite entre
    effectif et fréquence.
  • Lélève doit comprendre que la probabilité de
    surréservation est la valeur autour de laquelle
    fluctuent les fréquences lorsquon appuie sur la
    touche F9.
  • On accepte toute évaluation comprise entre 0,06
    et 0,10.
  • Signalons pour le professeur que le calcul de
    cette probabilité peut seffectuer par la formule
     1-LOI.BINOMIALE(1001070,9VRAI)  qui donne
    comme réponse environ 0,08 (ou 8 ).

104
SIMULATION SUR TABLEUR
105
Question COMPETENCES EVALUEES
1 Lélève est capable de réaliser la simulation
Lélève comprend le sens de laffichage 1 ou 0 de linstruction  ENT(ALEA()0,9)  
2 Lélève est capable de réaliser la simulation de taille 1 000.
3 Lélève connaît la différence de sens entre effectif et fréquence et est capable de calculer la fréquence.
4 Lélève identifie la probabilité comme linvariant autour duquel fluctuent les fréquences observées.
Lélève donne une évaluation convenable de la probabilité.
Lélève sait exprimer, en pourcentages, le risque de surréservation.
Sur tout le TP Lélève tire profit des indications éventuellement données à loral. Ces indications peuvent être des aides logicielles nécessaires pour réaliser ce quil a prévu.
106
CRAPS
  • Le Craps est un jeu d'argent venant des
    États-Unis qui se joue avec deux dés à six faces.
  • Les paris portent sur les combinaisons
    successives obtenues avec la somme des faces des
    deux dés.Il faut jeter deux dés à six faces sur
    une table avec des parois verticales de 40 cm de
    hauteur pour que les dés ne sortent pas de l'aire
    de jeu.
  • Le total des 2 faces opposées de chacun des deux
    dés doit toujours être égale à 7  16, 25, 34.
  • Au premier lancer, le lanceur perd sa mise s'il 2
    (11) ou 3 (21) ou 12 (66). On dit qu'il a fait
    un Craps.
  • Source  wikipedia.org

107
  • Est-il plus facile d'obtenir un total de 6 ou de
    7 avec deux dés ?
  • 1. Simulation de lancés de deux dés et calcul des
    fréquences d'apparition des sommes des faces
    obtenues.
  • 1.1. Lancer le tableur (Excel ou Open Office
    Calc) et 
  • ? écrire, dans la cellule A1, l'expression 
    Simulation de 10 lancés d'une paire de dés 
  • ? ajuster la largeur de la colonne 
  • ? entrer, dans la cellule A2, la formule 
    ENT(ALEA()61)ENT(ALEA()61).
  • ? incrémenter la cellule A2, jusqu'à la cellule
    A11 (soit 10 cases correspondant aux 10 premiers
    lancés) 
  • ? écrire, dans la cellule C6, l'expression  Nombr
    e de 6  
  • ? entrer, dans la cellule D6, la formule 
    NB.SI(A2A116) 
  • ? écrire, dans la cellule C7, l'expression  Nombr
    e de 7  
  • ? entrer, dans la cellule D7, la formule 
    NB.SI(A2A117) 
  • ? appuyer plusieurs fois sur la touche F9 afin de
    faire afficher d'autres lancés.
  • Cette simulation permet-elle répondre au problème
    posé ?
Write a Comment
User Comments (0)
About PowerShow.com