Title: Statistique, licence
1Statistique, licence
2Analyse de variance
- Pour plans à mesures répétées
3Plan
- Position du problème
- Utilité des plans à mesures répétées
- Les conditions dapplication
- La beauté est-elle une notion universelle?
- La régression vers la moyenne
- Évolution
- Quest ce quune bonne blague?
41. Problématique
- situation propice à lanova répétée.
5Mesures répétées
- Lorsquon mesure plusieurs fois de suite la
 même grandeur sur des sujets, on est
confronté à une incohérence. - Si par exemple on mesure le QI dans trois
situations, et que les sujets passent les trois
situations - On pourra dire quil y a 3 QI (variables),
perdant ainsi léquivalence des QI. - On pourra dire quil y a une variable QI et une
var situation, mais alors quels sont les
individus? - On utilisera une description incorrecte
mathématiquement, mais facile à comprendre en
parlant de variable intra-sujets et inter-sujets.
6Utilisation courante
- Cette situation est ce quon appelle un plan Ã
mesures répétées pour des raisons évidentes - On utilise souvent lanova pour plans à mesures
répétées quand on mesure plusieurs fois une même
grandeur pour en percevoir lévolution au cours
du temps ou dans diverses situations , pour
chaque sujet. - Là où une une anova simple échouerait du fait de
la variabilité inter-sujet, celle-ci pourra
réussir, car on peut dans ce cas supprimer les
facteurs personnels.
7Décomposition
on peut se débarrasser des variations sujet.
Total
Inter-sujet (facteur sujet)
Intra-sujet
Erreur
Facteur
82. Utilité
- Des plans à mesures répétées
9Exemple-fiction
- Supposons que lon veuille étudier lévolution
des opinions vis-à -vis du maoïsme dun groupe de
jeunes a priori favorables, au cours dune
semaine de présentation. - On mesure lopinion par une valeur numérique X.
- Si lon veut utiliser une anova simple, on peut
interroger un échantillon le premier jour, un
autre le second jour, et un troisième le dernier
jour par exemple. - Si lon trouve des différences, elles seront
peut-être peu significatives
10Anova simple
les moyennes diminuent au cours du temps, mais
cela pourrait être le fruit du hasard.
les barres derreurs montrent en effet une grande
variation pour chaque groupe (jour).
11Anova simple
lhypothèse dhomogénéité des variances se tient.
la différence entre les groupes nest pas
significative. On ne peut pas conclure.
12Anova répétée
- En fait, on peut imaginer deux cas limites. Lun
des cas est le suivant les variations prises
sujet par sujet sont hiératiques et peu
prévisibles. Dans ce cas, les mesures répétées
donneront le même résultat.
- Lautre cas limite est celui où, bien quil y ait
de grandes différences entre les sujets, leffet
du facteur temps est presque le même sur les
différents sujets. Dans ce cas, les résultats
pourraient être très différents!
13Anova répétée
il y a des différences significatives entre les
sujets. Comparez le Scsujet au Sctotal!
14Anova répétée
quand on a annulé le facteur sujet très
important mais pour nous inintéressant on
arrive à conclure à un effet très significatif du
temps.
15Pour conclure
- Dun autre côté, il va de soi que toutes les
études ne se prêtent pas à ce genre de plan
dexpérience. - En particulier, il est parfois gênant de faire
passer plusieurs fois le même test. - Dans le cas de situations différentes, on pensera
à contrebalancer pour lordre.
- Les plans à mesures répétées permettent de
saffranchir des turbulences de la VD engendrées
par le fait que les humains diffèrent. - Ils sont précieux pour détecter un effet un peu
fin masqué par les différences individuels.
163. Conditions
17CA
- On dispose de
- Une VD numérique X
- Un facteur intra-sujet F
- Un facteur  sujet .
- On sinterroge sur les effet des facteurs F et
Sujet sur la VD X. - On peut également avoir, en plus des facteurs
déjà mentionnés, des facteurs inter-sujets.
18Conditions dapplications
- Les sujets doivent être indépendants (pas les
observations !) - Les écart-types des différents relevés (i.e. de
la VD pour chaque modalité du facteur F) doivent
être homogènes - Les covariances doivent également être homogènes
- Les distributions doivent être normales
Indépendance des sujets
Homogénéité des variances
Homogénéité des covariances
normalité
194. La beauté
- Universelle, culturelle ou personnelle?
20Présentation
- Chaque sujet a attribué une note de beauté Ã
chacun des six visages présentés. Il y a 111
sujets. - La note est une valeur comprise entre 0 et 10.
- Parmi les questions que lon peut se poser Ã
partir de cette expérience, étudions celle-ci
dans quelle mesure la notion de beauté est-elle
personnelle ?
21Portrait A
Portrait B
Portrait C
22Portrait D
Portrait E
Portrait F
23Présentation
- Dans la pratique, on procède ainsi pour
simplifier la présentation - On dit que les individus sont les sujets.
- Que la VD est  la note X.
- Il y a deux facteurs catégoriels
- Le visage V, variable intra-sujet
- Le facteur  sujet S
24Formalisation de la question
- Notre question était la note est-elle le
résultat dun processus personnel ou plutôt
universel/culturel ? - Pour y répondre, nous réécrirons la question de
cette manière -  La note dépend-t-elle principalement du facteur
sujet ou du facteur visage ?Â
25Formalisation de la question
- Si la beauté est essentiellement personnelle, la
note doit dépendre presque uniquement du facteur
 sujet , et les variations de X peuvent alors
sexpliquer presque entièrement par la variation
due à S. - Dans le cas contraire, elle doit dépendre du
 vrai facteur V. - Pour le savoir, nous utilisons une anova
particulière, dont le principe est le même que
pour lanova simple lanova pour plans Ã
mesures répétées.
26Tableau des données brutes
A B C D E F
S1 10 2 0 9 6 0
S2 10 5 4 10 8 2
S3 9 8 3 9 7 1
S4 10 5 1 9 5 2
S5 8 6 1 8 4 5
S6 8 5 0 10 8 1
S7 9 5 0 10 3 0
S8 10 3 2 8 5 0
S9 7 1 1 7 9 1
27Tableau
Source SC dl CM F
S 14124 110 128 128
Intra 4816 555
Erreur 554 550 1
V 4262 5 852 852
Total 18940 665
28Interprétation
- Les F se comparent à ceux de la table.
- Pour le F (S), il faut lire 110 et 550 dl (soit
1.57) - Pour le F (V), il sagira de 5 et 550 dl (soit
3.05) - Dans les deux cas, les F observés sont
significatifs à 1 (et même, en fait, à 0.01)
29Interprétation
- On en déduit tout naturellement que
- La note dépend  certainement (et non pas
 fortement ) du visage présenté - Elle dépend également du sujet (juge)
- Il faudra affiner pour pouvoir répondre à la
question de départ
30Remarques
- On ne teste habituellement pas TOUT.
- En général, il faut bien réfléchir avant
lexpérience à ce qui sera nécessaire et ce qui
ne le sera pas. Plus on calcule de statistiques
F, moins le résultat final est fiable, pour un
risque par test fixé. - Dans notre cas, il faut calculer les deux F
possibles, mais on ne calcule habituellement que
le F (facteur), car la variation inter-sujet ne
nous intéresse pas.
31Grandeur des effets
- Comme dans le cas général, on peut affiner la
compréhension des effets en calculant les
grandeurs des effets. - Par exemple SC(S)/SC(total)75, ce qui indique
que 75 de la variation totale (sur
léchantillon) pour les notes est attribuable au
facteur sujet - Dautre part, SC(V)/SC(total)23, si bien que
23 de la variation totale est attribuable au
facteur visage.
32Grandeur des effets
- Cela laisse penser que la notion de beauté est
avant tout personnelle, car les facteurs
individuels expliquent une plus grande partie de
la variation. - Mais il faudrait en réalité étudier les rangs
plus que les notes. - Les différences inter-sujet observées sont en
effet en partie dues à linterprétation des codes
de jugement. (notes attribuées). - Létude avec les rangs constituent le test de
Friedman, et il montre que la beauté est plutôt
culturelle ou universelle.
335. Régression
34Eau et fièvre
- Sélectionnons un échantillons de patients ayant
de la fièvre (au moins 38). - Donnons-leur de leau de source. Nous les
informons quils boivent de leau de source (il
nest pas ici question deffet placebo). - Reprenons, deux jours plus tard, leur
température. - Dans la plupart des cas, la température a baissé!
Halte aux coûteuses aspirines! Sus au paracétamol!
35Eau et fièvre
- Comment expliquer ce résultat surprenant, déjÃ
constaté pour les tailles par Galton? - Il sagit de la régression vers la moyenne, un
phénomène purement mécanico-statistique.
36Eau et fièvre
- Explication intuitive
- La température dépend de plusieurs facteurs
(virus, etc.) dont la plupart sont aléatoires et
varient au cours du temps. - En sélectionnant des personnes ayant de la
fièvre, on choisit un moment où ces facteurs vont
tous dans le sens dune augmentation de
température. Il est probable que quelques heures
plus tard, certains auront changé.
Explication mathématique On note T la température
en début dexpérience, et T en fin
dexpérience. Lévolution de température est
évidemment liée négativement à T, surtout si T et
T sont indépendants
376. A la main
- Évolution de la dépression en cure
38Présentation
- Des patients dépressifs suivent une thérapie. On
relève chaque mois un score X de gravité de la
dépression - Le but est de savoir si lévolution est plutôt
positive au cours du temps - On a une VD numérique X
- Un facteur S (sujet) et T (temps) catégoriel (on
mesure X quatre fois, T a donc quatre modalités) - Chaque patient passe plusieurs fois le test
donnant X.
39Question
- Nous sommes dans le cadre dune anova pour plans
à mesure répétées. - La question est de savoir si T a un effet sur X.
- Lhypothèse nulle serait  X ne présente en
moyenne aucune modification au cours du temps - Lhypothèse alternative  X varie au cours du
tempsÂ
40Données brutes
41Mieux vaut répéter
- Si on étudiait seulement les moyennes de la VD
chaque mois, sans tenir compte du facteur sujet,
on aurait à comparer les moyennes de
distributions très étalées - En effet, les valeurs diffèrent beaucoup dun
sujet à lautre - Grâce à lanova pour plans à mesures répétées, on
peut annuler la variation sujet - Intuitivement, on peut comprendre les choses de
la manière suivante
42Méthode simple
43Méthode répétée
Chaque courbe représente un sujet. On suit
lévolution pour chaque sujet
44Conditions
- On supposera
- Lindépendance des sujets
- La normalité
- Lhomogénéité des covariances et des variances
45Plan
- Le but est de calculer F pour le facteur temps
(T) - Notre question est en effet de savoir si T a un
effet sur la VD X. - Pour cela, on doit faire presque tous les
calculs, en commençant par les SC
46FC
- Commençons par calculer le facteur de correction
FC.
47SC total
- On peut ensuite calculer SC total
48SC inter-sujet
- Le SC inter-sujet se calcule facilement
49SC(T)
- Un autre SC est facile le SC entre les mois
SC(T)
50Autres SC
- Les autres SC se déduisent par différences.
51Degré de libertés
- Il est clair que
- dl(tot) 39
- dl(S) 9
- dl(T) 3
- Les autres sen déduisent par différence
52Tableau
53- Le F est calculé avec 3 et 27 dl.
- La table donne 4.64
- On peut donc conclure et rejeter H0 pour H1 au
risque de 1. - Ainsi, les patients présentent une évolution.
- Sur léchantillon, lévolution semblant positive
(baisse du score de gravité), on pense que la
thérapie est efficace.
54Remarques
- En réalité, il faudrait comparer à un groupe
témoin, à cause de leffet de régression vers la
moyenne. - On peut préciser la grandeur de leffet du
facteur en calculant - SC(T)/SC(tot) 2
- La thérapie explique seulement 2 des variations
observées.
55Remarques
- On peut vouloir supprimer leffet sujet, dû au
fait que certains patients sont plus gravement
dépressifs que dautres. - Pour cela, on peut calculer SC(T)/(SC(tot)-SC(S))
53 et dire que  la thérapie explique 53 des
variations de score indépendamment du sujetÂ
567. Un bonne blague
57Présentation
- On demande à des chercheurs en mathématiques,
lettres, ou musicologie, de noter sur 10 la
qualités de 3 blagues. - On a ainsi une variable  note , un facteur
intra-sujet blague (1,2, ou 3)
- Mais également un facteur inter-sujet groupe
(maths, lettres, musicologie) - On peut traiter ces données dun coup par
ordinateur, ici SPSS.
58Si on suppose la normalité, le reste des
conditions dapplication est justifié par le test
de Mauchly.
59Il semblerait y avoir des blagues de matheux (1),
de musiciens (2) et de lettreux (3). Cela devrait
se traduire par une interaction entre le groupe
et la blague.
60on ne sintéresse pas aux variations dues aux
facteur sujet.
il ny a pas de différence significative entre
les blague. Linteraction a en revanche un effet
significatif sur la note, ce qui confirme notre
diagnostique.
61leffet principal du groupe est peu significatif
compte tenu du nombre de F calculés
ici, on fait une anova simple sur les moyennes
62Conclusion
- Il y a des blagues pour matheux, dautres pour
lettreux, dautres pour musiciens. - Les différentes blagues ne sont ni plus drôles ni
moins drôles dans labsolu, mais elles
correspondent plus ou moins bien à lauditeur. - Enfin, les trois groupes semblent juger
globalement les blagues de la même manière les
matheux, les lettreux, les musiciens ne sont ni
meilleur ni moins bon public les uns que les
autres.