Title: Comparaison de deux moyennes observes
1Comparaison de deux moyennes observées
- Situation du problème
- On dispose dune variable qualitative binaire qui
permet de définir deux groupes. - On mesure une variable quantitative qui permet de
calculer dans chaque groupe les différents
paramètres de la distribution moyenne,
estimateur de lécart type... - On désire savoir si les moyennes observées dans
chacun des groupes peuvent être considérées comme
des estimateurs de la même moyenne aux
fluctuations du hasard près. - Par exemple, on a administré à deux groupes de
patients tirés au sort deux somnifères. Dans le
premier groupe, la durée moyenne du sommeil a été
de 5,6 heures et dans le second de 4,9 heures.
Les deux somnifères peuvent-ils être considérés
comme entraînant la même durée moyenne de sommeil
? - Attention
- les techniques développées ci après ne concernent
que le cas particulier de 2 groupes. Si il y a
plus de deux groupes on utilise une autre
approche. - pour établir le test, on a besoin de lhypothèse
(que lon peut tester) que les variances des
populations dont sont issus les deux groupes sont
identiques.
2Hypothèses
- Hypothèses
- Hypothèse nulle
- les deux moyennes observées xa et xb sont des
estimateurs de deux moyennes µa et µb tels que µa
µb - les deux échantillons sont issus dune même
population (même moyenne et même variance) - Hypothèses alternatives
- Test bilatéral µa µb
- Test unilatéral µa gt µb o u (exclusif) µa lt
µb - En pratiques deux cas de figure
- Les effectifs des deux échantillons sont grands
(supérieurs à 30) Les calculs sont simplifiés,
on peut utiliser une approche par la loi normale. - Un des effectifs ou les deux sont petits. En plus
de légalité des variances, la loi de
distribution du paramètre doit suivre une loi
normale. Il est nécessaire de calculer la
variance commune. - Eléments nécessaires aux calculs
- les deux moyennes, les effectifs des deux
échantillons, les deux estimateurs des écart
types (ou autres paramètres reliés SCE, ESM,
CV...)
3Grands échantillons
- Cas des grands échantillons
- Approximation par la loi normale
- Lorsque les deux échantillons sont grands,
- xa suit une distribution normale de moyenne µa
et de variance sa/Na - Il en est de même pour xb
- Si les deux échantillons sont indépendants, la
différence xa - xb suit une loi normale dont la
moyenne est µa - µb et la variance sa/Na sb/Nb - Si H0 est vraie µa - µb 0 et
2
2
2
xa - xb
u
suit approximativement une loi normale centrée
réduite
sa sb
2
2
Si Na et Nb sont grands, sa sb sont de
bonnes approximations des vraies variances et
on peut les utiliser dans le calcul. Il y a deux
approximations de nature différente Celle de
la distribution de la moyenne par une loi
normale. Celle de la variance par son estimateur.
- Si u est supérieur à ualpha on rejette
lhypothèse nulle. Lire dans la table le degré de
signification p
4Cas général (petits échantillons)
- Cas général
- Il doit être utilisé lorsquau moins un des
échantillon a un effectif faible. Il est
utilisable pour de grands échantillons mais
nécessite plus de calculs. - Calcul de la variance commune
suit une loi de student à Na Nb- 2 DDL
t alpha lu dans la table de Student pour le DDL
correspondant Si t gt t alpha on rejette H0
les deux moyennes diffèrent au risque alpha. On
cherche le degré de signification p dans la table
de t Si t lt t alpha on ne peut pas rejeter H0.
Il n'y a pas de différence significative au seuil
de risque alpha mais ATTENTION au risque bêta.
5Reemarques
- Remarques sur les conditions dapplications cas
des petits effectifs - Egalité des variances homocédasticité
- Cette condition est dautant plus importante Ã
respecter que les effectifs dans les deux
échantillons sont très différents. - Si cette condition nest pas remplie certains
proposent de prendre une sécurité en diminuant le
degré de liberté du t. - Normalité
- Le test t est robuste à un écart de normalité en
particulier si les effectifs des deux
échantillons sont identiques et que les variances
sont voisines.
6Comparaison de deux variances
- Comparaison de 2 variances
- Pour vérifier lhomocédasticité
F
On met arbitrairement la plus grande variance au
numérateur donc F gt 1. DDL (Na-1), (Nb-1)
- On utilise la table du F pour déterminer la
valeur critique. - ATTENTION le choix arbitraire nous met en
condition unilatérale. Il faut donc utiliser la
table F à 2,5 pour avoir un risque bilatéral de
5. - Si F gt Falpha on rejette lhypothèse dégalité
des variances.
- La comparaison des deux moyennes suppose
légalité des variances. Ainsi, dans le cas de
nos deux somnifères cela suppose quils
nentraînent pas de différence de dispersion du
temps de sommeil mais uniquement une translation
de la moyenne.
xa
xb
7Exemple
- Exemple
- On compare la consommation de caféine chez 112
cancéreux moyenne 147,2 mg/jour - écart type
estimé 101,8 mg/jour à celle de 185 non cancéreux
moyenne 132,9 mg/jour - écart type 115,7
mg/jour. On prend un risque à 5. - Test bilatéral, grands échantillons
147,2 - 132,9
1,11
u
101,82 112
115,72 185
1,11 est inférieur à 1,96 gt Différence non
significative On aurait pu utiliser un t mais ce
serait plus long car il faut alors calculer la
variance commune.