Title: Estimations sur un cluster
1- Estimations sur un cluster
- J. Macario
2Plan
- Les choses
- Les questions
- Une escroquerie
- Une vieille recette
- Maximum de Vraisemblance
- mise en uvre
- résultats
- Développements
3The reference complètement in French
- J.L. Foulley, C. Delmas, C. Robert-Granié
- Méthodes du Maximum de Vraisemblance en Modèle
linéaire Mixte - Journal de la Société Française de Statistique
(2002) - 143 (1-2),pp 5-52
- très complet
- très matheux
- 77 réf. , 3 annexes
4Estimations sur un cluster
5Pour chaque sujet, des "lectures"
620 "sujets", 4 "lectures"
7Le modèle
8La variance pour un sujet complet Vi
9Estimations sur un cluster
- Les questions
- (pour quoi faire ?)
10Estimations
- Valeur de m
- Variance de l'estimation
- ou intervalle de confiance
- Variance intersujet
- et la précision de l'estimation
- variance de (l'estimation) de la variance
- Même chose pour la variance de la lecture
11Et plus loin, les BLUP
- Reconstituer les effets sujets
- qui ont été abandonnés au profit de la variance
le modèle de départ a été
remplacé par une écriture ne dépendant que de
ces paramètres
Peut-on (re)trouver ?
12Le modèle de départ et sa reformulation
20 sujets
1 moyenne
21 paramètres
3 paramètres
13Le critère d'ajustement
- Méthode de Moindres Carrés
- ordinaires
- pondérés
- généralisés
- Maximum de Vraisemblance
- REML
- Resticted Estimation Maximum Likelihood
- REsidual Maximum Likelihood
14Bref ...
- MMCO
- MMCP
- MMCG
- MV
- REML
- et BLUP
15Estimations sur un cluster
16Négliger les deux niveaux d'erreur
- Traiter toutes les valeurs comme des observations
indépendantes - Résultat
- Estimation de m correcte !
- Variance résiduelle fausse
- Variance de l'estimation de m fausse
17Modèle implicite
18Modèle implicite
19Estimations sur un cluster
20L'Anova
Anova 1 facteur
Facteur sujet à 20 modalités
avec 4 répétitions dans chaque colonne
à noter N 80
21La table d'Anova
Inter-sujets
3631,25
19
191,118421
Résiduelle
629,5
60
10,4916667
Totale
4260,75
79
22Méthode de Henderson de type1
- Simple et de bon goût
- Sans biais
- Mais peut donner des estimations négatives (!)
- le prix à payer pour le "sans biais" (?)
- Pas d'estimation disponible de la variance de
(l'estimation de) la variance
23Estimation de
24Détails sur l'escroquerie
- ddl 19 et pas 79
- Escroquerie Var(m) 0,67417
- Avec l'Anova Var(m) 2,38898
100 IC(95)simulés
pas mal !
25Estimations sur un cluster
- Maximum de Vraisemblance
- mise en uvre
26Formulation
27Variance pour un sujet
28Formulation
29Formulation de V pour plusieurs sujets
30Formulation de det V
31Formulation de la somme des carrés
32Formulation de la somme des carrés
33Estimations sur un cluster
- Maximum de Vraisemblance
- résultats
34Estimations des paramètres
Résultats du MV
Résultats de l'Anova
m 75,62497
m 75,62500
s2(sujet) 42,76763
s2(sujet) 45,15669
s2(lecture) 10,49167
s2(lecture) 10,49167
35Un autre problème - MV test de Wald
Résultats de l'Anova
Résultats du MV
m 75,62500
m 75,62497
s2(m) 2,38898
s2(m) 0,88124
IC(95) ( 72,38995 78,86005 )
t Student 19 ddl 2,093
IC(95) ( 75,09592 76,15402 )
t Normal 1,96
36Une forme de solution(log du) Rapport de
Vraisemblance
IC(95) ( 72,67232 78,57767 )
Rappel Anova IC(95) ( 72,38995 78,86005 )
Rappel Wald IC(95) ( 75,09592 76,15402 )
37W W W ?
328,908
3,841
325,067
38W W W ?
78,58
72,67
39W W W ?
approximation paraboliquede -2LV
Test deWald
40W W W (2) ?
Anova s2(sujet) 45,16
MV s2(sujet) 42,77
Variation relative 5,29
41Le MV n'a pas que des désavantages
Résultats de l'Anova
Résultats du MV
s2(sujet) 45,16
s2(sujet) 42,77
s2 s2(sujet) ?
mais
s2 s2(sujet) 0,00971
(IC Ã construire par RV)
42Tentative (?) d'amélioration (?) du test de Wald
- Bidouiller le ddl
- En principe on est asymptotique
- estim/s(estim) loi Normale
- SAS
- estim/s(estim) loi de Student à n ddl
- plusieurs choix pour n ddl, aucun indiscutable
- préconisation Satterthwaite
- Vraie Préconisation RV !
43Estimations sur un cluster
- Un test un peu particulier sur les bords
44Test d'une composante de la variance 0
- Le Problème
- test de l'hypothèse H0 s2(machin) 0
- la valeur à tester se trouve sur le bord de
l'intervalle de définition - à l'évidence les valeurs négatives pour s2 ne
sont pas possibles
- La solution
- modifier le test du rapport de vraisemblance pour
le rendre unilatéral
45Modification du test du rapport de vraisemblance
46Loi modifiée
c2 Ã 1 ddl
47Construction
c2 0 ddl
c2 1 ddl
la demi somme
48Calcul connaissant la valeur trouver la p-value
49Trouver le c2 limite pour un seuil a donné
50Pour un cas plus compliqué
51MV ou REML
- Les tests RV sont utilisables avec la
vraisemblance standard ou avec le REML - Si on utilise le REML
- bien prendre garde de ne comparer que des modèles
avec LES MÊMES EFFETS FIXES
52Estimations sur un cluster
53Le REML - principe
observations dans Rn
résidus dans Rn-p
modèle dans Rp
54Dans notre cas
observations dans R20
résidus dans R19
modèle dans R1
55Question et réponse
Comment passer de R20 Ã R19 ?
dans R20
dans R19
56REML - résultats
Résultats de l'Anova
Résultats du MV
s2(sujet) 42,77
s2(sujet) 45,16
s2 s2(sujet) 0,00971
Résultats du REML
s2(sujet) 45,15661
s2 s2(sujet) 0,008323
(IC Ã construire par R-REML)
57Pourquoi REML marche ?
58Pourquoi REML marche ?
59Le BLUP
- Best Linear Unbiased Predictor
- par analogie avec BLUE
- Best Linear Unbiased Estimator
- estimateur MMCP ou MV
- Le résultat théorique
60Rétrécissement ou Shrinkage
moyennes brutes
s2(sujet) 45,15669
s2(lecture) 10,49167
BLUP
61Shrinkage
moyennes brutes
s2(sujet) 5,665
s2(lecture) 25,688
BLUP
62Une promenade dans les lois de proba
63Une promenade dans les lois de proba
64Au prix d'une ellipse ...
65Les formules du BLUP
66Estimations sur un cluster
67Les méthodes apparentées
- MMCP ou MMCG
- GEE
- Two Stage
- EM