Title: Analyse de donnes avec covariables incompltes
1Analyse de données avec covariables incomplètes
- De lanalyse cas complets à la méthode des
imputations multiples
2Plan
- Situation simplifiée
- 3 variables Maladie, Exposition, Facteur de
confusion - Typologie des données manquantes
- Les méthodes
- Un exemple
3Notations
- D Maladie (binaire)
- E Exposition (binaire)
- C Facteur de confusion (binaire)
- Le facteur de confusion nest pas observé pour
tous les sujets - Les rôles de E et C sont interchangeables
- Possibilité dextension à des variables à plus
de deux catégories
4Typologie des données manquantes
- Indicateur de données manquantes
- R1 si C est observé
- R0 sinon
5Données MCAR
- Manquant Complètement au hasard
- (Missing Completly At Random)
- Exemple E age, C consommation dalcool
- La probabilité que la consommation dalcool soit
manquante est la même pour tous les sujets
6Données MAR
- Manquantes au hasard
- (Missing At Random)
- Exemple la probabilité que la consommation
dalcool soit manquante ne dépend que de la
maladie et de lage (de variables observées)
7Données NMAR
- Non manquantes au hasard
- (Non Missing At Random)
- Exemple après prise en compte de lâge et de la
maladie, la probabilité que la conso dalcool
soit manquante dépend du niveau de consommation
dalcool
8Ajustement par un modèle logistique
- Modélisation
- Si toutes les données sont observées, on estime
les paramètres par la méthode du maximum de
vraisemblance
9Ajustement par un modèle logistique
- Sil y a des données incomplètes, on montre que
- Résultat analogue à celui quon obtient en
écrivant un modèle logistique dans le cas dune
enquête cas-témoin
10Les méthodes
- Analyse cas complets
- Ajout dune catégorie manquante
- Analyse cas complets modifiée
- Offset
- Pondérations
- Méthodes dimputations
- Simples
- multiples
11Analyse cas complets
- Les résultats sont valides si
-
- Rappel
-
- La probabilité que la donnée soit observée ne
dépend pas de la maladie, mais uniquement des
covariables.
12Analyse cas complets
- Si , les
estimations peuvent être biaisées. - Si ,
lintercept est modifié,mais les paramètres
associés à lexposition et au facteur de
confusion sont non biaisés - Dans une étude cas-témoin on a
13Analyse cas complets
- Résultats non biaisés si la probabilité dêtre
observé ne dépend que des covariables.
Lhypothèse MAR nest pas nécessaire. - La précision des estimations dépend du nombre de
sujets ôtés de lanalyse
14Effets de létat de santé perçu en 1996 et de la
PCS sur la mortalité des cadres et des ouvriers
de la cohorte Gazel (1997 2002)
- 1989 ----------- 1996 - 1997----2002
- PCS Etat de santé Mortalité
15Population étudiée (n5995)
- Cadres et ouvriers vivants en 1997
- Cadres 71
- Ouvriers 29
- État de santé perçu en 1996
- 1-4 Bon 64
- 5-8 Mauvais 14
- Manquant 22
- Mortalité entre 1997 et 2002
- 127décès
16Analyse cas complets
17Analyse cas complets
18Ajout dune catégorie manquante - Indicatrice
de données manquantes
- Deux indicatrices pour décrire C
- Modélisation de tous les sujets
19Ajout dune catégorie manquante - Indicatrice
de données manquantes
- Si les sujets sont observés R1, C1c, C20
- Si les sujets ne sont pas observés R0, C10,C21
20Ajout dune catégorie manquante - Indicatrice
de données manquantes
- Si les données sont MCAR, les observés (R1) et
les non observés (R0) sont deux échantillons
aléatoires des données, et on doit donc obtenir
les mêmes estimations que les données soient
observées (R1) ou non observées (R0) - Si R1 exp( ) représente lOR ajusté
- Si R0 exp( ) représente lOR brut
- Lestimation de exp( ) est entre lOR ajusté
- et lOR brut
21Ajout dune catégorie manquante - Indicatrice
de données manquantes
- Si les données ne sont pas MCAR, on montre que
lestimation de exp( ) peut être en dehors de
lintervalle OR ajusté OR brut - Conclusion méthode non recommandée
22Ajout dune catégorie manquante - Indicatrice
de données manquantes
23Analyse cas complets modifiée (offset)
-
- Rappel
- Si les données sont MAR, il est possible
destimer q(d,e,c) à partir de la totalité des
sujets par - Ajustement dun modèle logistique avec offset
sur les sujets complets - La variance des estimateurs doit être corrigée
(Cain Breslow 1988 AJE 128,1198-1206)
24Analyse cas complets modifiée
Hypothèseles données sont manquantes au hasard
25Analyse cas complets modifiée
Avec offset Les variances doivent être corrigées
26Analyse Cas complets modifiée (pondérations)
- On affecte à chaque sujet un poids inversement
proportionnel à la probabilité quil a dêtre
observé (analogie avec lanalyse de données avec
échantillonnage complexe). - Pour pouvoir calculer cette probabilité, il faut
que les données soient MAR q(d,e,c) est estimée
par - La variance des estimateurs doit être corrigée
(nécessité dutiliser un logiciel spécialisé)
27Analyse cas complets modifiés
Hypothèseles données sont manquantes au hasard
28Analyse cas complets modifiée
Sans pondération OR2.05 Avec pondération
OR2.47
mauvais
bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
cadres
1.96
x 1.20
x 1.24
1.36
x 1.20
x 1.24
5.09
261
14
2.32
841
20
ouvriers
6.30
x 1.52
x 1.91
2.90
x 152
x 1.91
29Analyse cas complets modifiée
Avec pondération
Les variances doivent être corrigées
30Analyse cas completés (Filling the
contengency table)
À laide de Bayes , on montre que
On déduit la distribution prédictive de la
variable manquante à partir de la distribution
conditionnelle chez les cas complets
31Analyse cas completés
ouvriers
cadres
dcd
vv
dcd
vv
34
1102
50
3490
Esp96 obs
20
841
39
2920
Bon
14
261
11
570
Mauvais
59
76
78
84
bon
31
578
12
698
Esp96 manq
? 18.2
? 441.1
? 9.4
? 584
Bon
? 12.8
? 136.9
? 2.6
? 114
Mauvais
32Analyse cas completés
Mauvais
Bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
Cadres
1.96
114
2.6
1.36
584
9.4
5.09
261
14
2.32
841
20
Ouvriers
6.30
136.9
12.8
2.90
411.1
18.2
33Méthodes dimputations
- Imputations simples
- Cold-deck, (Hot-deck)
- Par un modèle de régression
- Imputations multiples (Rubin,1978)
34Imputation des états de santé manquants en 1996
par le dernier état de santé déclaré (méthode
cold-deck)
35Imputation des états de santé manquants en 1996
par le dernier état de santé déclaré
Mauvais
Bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
Cadres
2.26
126
5
1.30
577
7
5.09
261
14
2.32
841
20
Ouvriers
5.69
147
10
3.10
441
21
36Imputation par la dernière valeur déclarée
37Imputation simple par la valeur prédite par un
modèle de régression
X2
X1 X2
X1
Modélisation sur les cas comlpets
Imputation par la prédiction du modèle de
régression
38Comment tenir compte de lincertitude ?
- Tirer au sort dans la distribution prédictive
39Imputation simple par la valeur prédite par un
modèle de régression résidu aléatoire
X2
X1 X2
X1
Modélisation sur les cas comlpets
Imputation
40Comment tenir compte de lincertitude ?
- Tirer au sort dans la distribution prédictive
- Tirer au sort dans la distribution des paramètres
de régression
41Imputation simple par la valeur prédite par un
modèle de régression avec variabilité résidu
aléatoire
X2
Imputation
X1
42Comment tenir compte de lincertitude ?
- Tirer au sort dans la distribution prédictive
- Tirer au sort dans la distribution des paramètres
de régression - Plusieurs imputations
43Imputations multiples
- Plusieurs imputations
- Procédure itérative quand les données sont
manquantes sur plusieurs variables - (Convergence de lalgorithme)
- Les données sont MAR
44Imputations multiples
45Imputations multiples
46Imputations multiples
- Lhypothèse MAR est non testable
- Lhypothèse MAR est relative et dépend des
données observées - Choix du modèle dimputation
- Les variables liées au fait que les données sont
manquantes - Les variables liées aux variables avec valeurs
manquantes - Les variables de lanalyse
47Imputations multiples de létat de santé perçu en
1996
- Modèle dimputation
- États de santé perçu de 1989 à 2002
- PCS, Age
- Décès et année du décès
48Imputations multiples de létat de santé perçu en
1996
49Conclusion
- Les données incomplètes peuvent poser des
problèmes de biais et de puissance - Plusieurs méthodes
- Imputations multiples
- Choix du modèle dimputation
- Convergence de lalgorithme
- Logiciels pour imputations multiples
- SAS (MI, MIANALYSE), fonctions de Splus
- Logiciel gratuit et bien documenté NORM
- http//www.stat.psu.edu/jls/
50Bibliographie
- Vach Blettner
- Missing Data in Epidemiologic Studies
(Encyplopédie de Biostatistiques) - Biased Estimation of the odds Ratio in case
control studies due to the use of ad hoc methods
of correcting for missing values for confounding
AJE,1991,vol 134 8, p895-907 - erratum AJE 1994 vol140n1 p79
- Little Rubin
- Statistical analysis with missing data,1987,
Wiley - Schafer
- Analysis of incomplete multivariate data,1997,
- Chapman Hall