Modlisation des observations incompltes - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Modlisation des observations incompltes

Description:

se posent en termes diff rents selon que les donn es manquantes sont accidentelles ou ... Observation compl te d pend de quantit s inconnues. X Ym. R Yobs. La correction du biais ... – PowerPoint PPT presentation

Number of Views:51
Avg rating:3.0/5.0
Slides: 15
Provided by: adelfIspe
Category:

less

Transcript and Presenter's Notes

Title: Modlisation des observations incompltes


1
Modélisation des observations incomplètes
  • Michel Chavance

2
Problèmes
  • Biais
  • Précision
  • Coût et validité
  • se posent en termes différents selon que les
    données manquantes sont accidentelles ou
    planifiées
  • Enquête cas-temoin emboîtée dans une cohorte
  • Enquête cas-cohorte
  • Sortie d étude ou perdu de vue
  • Refus ou perte de prélèvement
  • Non réponse
  • Décès

3
Structure des données manquantes
  • Structure monotone ou structure non monotone

4
Typologie des données manquantes
  • MCA manquant complètement aléatoirement (MCAR)
  • La probabilité quune observation soit complète
    est constante
  • PR1 cste
  • Ex financement insuffisant pour un suivi dans
    une enquête longitudinale
  • Observation complète (R1) ne dépend ni de Y ni
    de X
  • X
  • R Y
  • perte de précision

5
Typologie des données manquantes(2)
  • MA manquant aléatoirement (MAR)
  • La probabilité quune observation soit complète
    ne dépend que de variables observées (âge, sexe,
    CSP, état de santé, mais aussi résultat dun test
    dhypersensibilité bronchique à la méthacholine)
  • PR1X,Yobs,Ym f(X,Yobs)
  • Observation complète dépend de quantités connues
  • X Ym
  • R Yobs
  • Le biais peut être redressé
  • Problème de précision

6
Typologie des données manquantes(3)
  • MNA manquant non aléatoirement (MNAR)
  • La probabilité quune observation soit complète
    dépend de variables non observées. Par exemple,
    le suivi de la fonction cognitive est interrompu
    lorsque celle ci sest dégradée au point de
    nécessiter un placement en institution
  • Observation complète dépend de quantités
    inconnues
  • X Ym
  • R Yobs
  • La correction du biais repose sur des hypothèses
    invérifiables problème de précision

7
Enquête cas-témoin emboîtée dans une cohorte
  • Information réduite sur tous les sujets de la
    cohorte
  • Information complémentaire et coûteuse sur
  • tous les cas apparus
  • un sous-échantillon des témoins
  • M X1 X2 Données MA ?

8
Vraisemblance
  • Y vecteur des réponses incomplet
  • X variables explicatives complètes
  • R indicatrice des observations complètes
  • Modèles par mélange (pattern mixture models)
  • Modèles par sélection (selection models)
  • Avantage Le paramètre q est celui qui aurait été
    estimé si les observations avaient été complètes
  • Les 2 modèles coïncident si R?(YX). C est le
    cas si les données sont MCA

9
Vraisemblance (2)
  • Y vecteur des réponses incomplet
  • X variables explicatives complètes
  • R indicatrice des observations complètes
  • b effets aléatoires
  • Modèles à variable partagée (shared parameter
    model)
  • Y et R indépendants sachant X et b
  • Par ex modèle linéaire mixte à ordonnées et
    pentes aléatoires pour Y et modèle logistique
    mixte pour R

10
Vraisemblance (données MA)
  • Modèles par sélection (observation ne dépend pas
    de Ym). On montre que lestimation du paramètre
    dintérêt par maximum de vraisemblance dépend de
    Yobs mais pas de R
  • Toute linformation sur q est apportée par le
    2ème terme. Utiliser un modèle mixte pour mettre
    en uvre le maximum de vraisemblance
    données manquantes ignorables

11
Données normales MNA
12
Vraisemblance (données MA)
  • Modèles par mélange
  • Toute linformation sur q est apportée par le 1er
    terme. Utiliser des modèles mixtes.

13
Vraisemblance observée
  • Données MA données manquantes ignorables car
    lestimateur du maximum de vraisemblance appliqué
    aux données observées est (asymptotiquement) sans
    biais. Estimation par maximum de vraisemblance
    (algorithme EM), imputation (simple ou multiple)
    ou équations destimation pondérées
  • Données MNA donnés manquantes informatives (MI)
  • Etude de sensibilité
  • Obtenir Xm pour un sous-échantillon
    d observations incomplètes

14
Conclusion
  • Si lon ne peut pas retrouver Ym pour un
    sous-échantillon de sujets incomplets, on ne peut
    pas savoir si les données sont MNA ou MA mais MA
    est peu plausible
  • On peut mettre en uvre différents types de
    modèles dans le cadre MNA , mais tous reposent
    sur des hypothèses non vérifiables
  • Il est généralement recommandé denvisager
    plusieurs hypothèses différentes (analyse de
    sensibilité)
Write a Comment
User Comments (0)
About PowerShow.com