Analyse de donnes avec covariables incompltes - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Analyse de donnes avec covariables incompltes

Description:

Possibilit d'extension des variables plus de deux cat gories ... On affecte chaque sujet un poids inversement proportionnel la probabilit qu' ... – PowerPoint PPT presentation

Number of Views:100
Avg rating:3.0/5.0
Slides: 51
Provided by: agu143
Category:

less

Transcript and Presenter's Notes

Title: Analyse de donnes avec covariables incompltes


1
Analyse de données avec covariables incomplètes
  • De lanalyse  cas complets  à la méthode des
    imputations multiples

2
Plan
  • Situation simplifiée
  • 3 variables Maladie, Exposition, Facteur de
    confusion
  • Typologie des données manquantes
  • Les méthodes
  • Un exemple

3
Notations
  • D Maladie (binaire)
  • E Exposition (binaire)
  • C Facteur de confusion (binaire)
  • Le facteur de confusion nest pas observé pour
    tous les sujets
  • Les rôles de E et C sont interchangeables
  • Possibilité dextension à des variables à plus
    de deux catégories

4
Typologie des données manquantes
  • Indicateur de données manquantes
  • R1 si C est observé
  • R0 sinon

5
Données MCAR
  • Manquant Complètement au hasard
  • (Missing Completly At Random)
  • Exemple E age, C consommation dalcool
  • La probabilité que la consommation dalcool soit
    manquante est la même pour tous les sujets

6
Données MAR
  • Manquantes au hasard
  • (Missing At Random)
  • Exemple la probabilité que la consommation
    dalcool soit manquante ne dépend que de la
    maladie et de lage (de variables observées)

7
Données NMAR
  • Non manquantes au hasard
  • (Non Missing At Random)
  • Exemple après prise en compte de lâge et de la
    maladie, la probabilité que la conso dalcool
    soit manquante dépend du niveau de consommation
    dalcool

8
Ajustement par un modèle logistique
  • Modélisation
  • Si toutes les données sont observées, on estime
    les paramètres par la méthode du maximum de
    vraisemblance

9
Ajustement par un modèle logistique
  • Sil y a des données incomplètes, on montre que
  • Résultat analogue à celui quon obtient en
    écrivant un modèle logistique dans le cas dune
    enquête cas-témoin

10
Les méthodes
  • Analyse cas complets 
  • Ajout dune  catégorie manquante 
  • Analyse  cas complets  modifiée
  • Offset
  • Pondérations
  • Méthodes dimputations
  • Simples
  • multiples

11
Analyse  cas complets 
  • Les résultats sont valides si
  • Rappel
  • La probabilité que la donnée soit observée ne
    dépend pas de la maladie, mais uniquement des
    covariables.

12
Analyse  cas complets 
  • Si , les
    estimations peuvent être biaisées.
  • Si ,
    lintercept est modifié,mais les paramètres
    associés à lexposition et au facteur de
    confusion sont non biaisés
  • Dans une étude cas-témoin on a

13
Analyse  cas complets 
  • Résultats non biaisés si la probabilité dêtre
    observé ne dépend que des covariables.
    Lhypothèse MAR nest pas nécessaire.
  • La précision des estimations dépend du nombre de
    sujets ôtés de lanalyse

14
Effets de létat de santé perçu en 1996 et de la
PCS sur la mortalité des cadres et des ouvriers
de la cohorte Gazel (1997 2002)
  • 1989 ----------- 1996 - 1997----2002
  • PCS Etat de santé Mortalité

15
Population étudiée (n5995)
  • Cadres et ouvriers vivants en 1997
  • Cadres 71
  • Ouvriers 29
  • État de santé perçu en 1996
  • 1-4 Bon 64
  • 5-8 Mauvais 14
  • Manquant 22
  • Mortalité entre 1997 et 2002
  • 127décès

16
Analyse  cas complets 
17
Analyse  cas complets 
18
Ajout dune  catégorie manquante  - Indicatrice
de données manquantes
  • Deux indicatrices pour décrire C
  • Modélisation de tous les sujets

19
Ajout dune  catégorie manquante  - Indicatrice
de données manquantes
  • Si les sujets sont observés R1, C1c, C20
  • Si les sujets ne sont pas observés R0, C10,C21

20
Ajout dune  catégorie manquante  - Indicatrice
de données manquantes
  • Si les données sont MCAR, les observés (R1) et
    les non observés (R0) sont deux échantillons
    aléatoires des données, et on doit donc obtenir
    les mêmes estimations que les données soient
    observées (R1) ou non observées (R0)
  • Si R1 exp( ) représente lOR ajusté
  • Si R0 exp( ) représente lOR brut
  • Lestimation de exp( ) est entre lOR ajusté
  • et lOR brut

21
Ajout dune  catégorie manquante  - Indicatrice
de données manquantes
  • Si les données ne sont pas MCAR, on montre que
    lestimation de exp( ) peut être en dehors de
    lintervalle OR ajusté OR brut
  • Conclusion méthode non recommandée

22
Ajout dune  catégorie manquante  - Indicatrice
de données manquantes
23
Analyse  cas complets  modifiée (offset)
  • Rappel
  • Si les données sont MAR, il est possible
    destimer q(d,e,c) à partir de la totalité des
    sujets par
  • Ajustement dun modèle logistique avec offset
    sur les sujets complets
  • La variance des estimateurs doit être corrigée
    (Cain Breslow 1988 AJE 128,1198-1206)

24
Analyse  cas complets  modifiée
Hypothèseles données sont manquantes au hasard
25
Analyse  cas complets  modifiée
Avec offset Les variances doivent être corrigées
26
Analyse  Cas complets  modifiée (pondérations)
  • On affecte à chaque sujet un poids inversement
    proportionnel à la probabilité quil a dêtre
    observé (analogie avec lanalyse de données avec
    échantillonnage complexe).
  • Pour pouvoir calculer cette probabilité, il faut
    que les données soient MAR q(d,e,c) est estimée
    par
  • La variance des estimateurs doit être corrigée
    (nécessité dutiliser un logiciel spécialisé)

27
Analyse cas complets modifiés
Hypothèseles données sont manquantes au hasard
28
Analyse  cas complets  modifiée
Sans pondération OR2.05 Avec pondération
OR2.47
mauvais
bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
cadres
1.96
x 1.20
x 1.24
1.36
x 1.20
x 1.24
5.09
261
14
2.32
841
20
ouvriers
6.30
x 1.52
x 1.91
2.90
x 152
x 1.91
29
Analyse  cas complets  modifiée
Avec pondération
Les variances doivent être corrigées
30
Analyse  cas completés (Filling the
contengency table)
  • Si les données sont MAR

À laide de Bayes , on montre que
On déduit la distribution prédictive de la
variable manquante à partir de la distribution
conditionnelle chez les cas complets
31
Analyse  cas completés 
ouvriers
cadres
dcd
vv
dcd
vv
34
1102
50
3490
Esp96 obs
20
841
39
2920
Bon
14
261
11
570
Mauvais
59
76
78
84
bon
31
578
12
698
Esp96 manq
? 18.2
? 441.1
? 9.4
? 584
Bon
? 12.8
? 136.9
? 2.6
? 114
Mauvais
32
Analyse  cas completés 
Mauvais
Bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
Cadres
1.96
114
2.6
1.36
584
9.4
5.09
261
14
2.32
841
20
Ouvriers
6.30
136.9
12.8
2.90
411.1
18.2
33
Méthodes dimputations
  • Imputations simples
  • Cold-deck, (Hot-deck)
  • Par un modèle de régression
  • Imputations multiples (Rubin,1978)

34
Imputation des états de santé manquants en 1996
par le dernier état de santé déclaré (méthode
cold-deck)
35
Imputation des états de santé manquants en 1996
par le dernier état de santé déclaré
Mauvais
Bon
ESP96
dcd
vv
dcd
dcd
vv
dcd
1.89
570
11
1.32
2920
39
Cadres
2.26
126
5
1.30
577
7
5.09
261
14
2.32
841
20
Ouvriers
5.69
147
10
3.10
441
21
36
Imputation par la dernière valeur déclarée
37
Imputation simple par la valeur prédite par un
modèle de régression
X2
X1 X2
X1
Modélisation sur les cas comlpets
Imputation par la prédiction du modèle de
régression
38
Comment tenir compte de lincertitude ?
  • Tirer au sort dans la distribution prédictive

39
Imputation simple par la valeur prédite par un
modèle de régression résidu aléatoire
X2
X1 X2
X1
Modélisation sur les cas comlpets
Imputation
40
Comment tenir compte de lincertitude ?
  • Tirer au sort dans la distribution prédictive
  • Tirer au sort dans la distribution des paramètres
    de régression

41
Imputation simple par la valeur prédite par un
modèle de régression avec variabilité résidu
aléatoire
X2
Imputation
X1
42
Comment tenir compte de lincertitude ?
  • Tirer au sort dans la distribution prédictive
  • Tirer au sort dans la distribution des paramètres
    de régression
  • Plusieurs imputations

43
Imputations multiples
  • Plusieurs imputations
  • Procédure itérative quand les données sont
    manquantes sur plusieurs variables
  • (Convergence de lalgorithme)
  • Les données sont MAR

44
Imputations multiples
45
Imputations multiples
46
Imputations multiples
  • Lhypothèse MAR est non testable
  • Lhypothèse MAR est relative et dépend des
    données observées
  • Choix du modèle dimputation
  • Les variables liées au fait que les données sont
    manquantes
  • Les variables liées aux variables avec valeurs
    manquantes
  • Les variables de lanalyse

47
Imputations multiples de létat de santé perçu en
1996
  • Modèle dimputation
  • États de santé perçu de 1989 à 2002
  • PCS, Age
  • Décès et année du décès

48
Imputations multiples de létat de santé perçu en
1996
49
Conclusion
  • Les données incomplètes peuvent poser des
    problèmes de biais et de puissance
  • Plusieurs méthodes
  • Imputations multiples
  • Choix du modèle dimputation
  • Convergence de lalgorithme
  • Logiciels pour imputations multiples
  • SAS (MI, MIANALYSE), fonctions de Splus
  • Logiciel gratuit et bien documenté NORM
  • http//www.stat.psu.edu/jls/

50
Bibliographie
  • Vach Blettner
  • Missing Data in Epidemiologic Studies
    (Encyplopédie de Biostatistiques)
  • Biased Estimation of the odds Ratio in case
    control studies due to the use of ad hoc methods
    of correcting for missing values for confounding
    AJE,1991,vol 134 8, p895-907
  • erratum AJE 1994 vol140n1 p79
  • Little Rubin
  • Statistical analysis with missing data,1987,
    Wiley
  • Schafer
  • Analysis of incomplete multivariate data,1997,
  • Chapman Hall
Write a Comment
User Comments (0)
About PowerShow.com