1 / 32

Données manquantes et imputations multiples

Données manquantes et imputations multiples. Aurélien VESIN INSERM – U823 Équipe « Épidémiologie des cancers et affections graves ». Plan. Introduction Problématique et enjeux Typologie des données manquantes (MAR, MNAR ….) Méthodes de modélisation des obs. incomplètes

ailani
Download Presentation

Données manquantes et imputations multiples

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Données manquantes et imputations multiples Aurélien VESIN INSERM – U823 Équipe « Épidémiologie des cancers et affections graves »

  2. Plan • Introduction • Problématique et enjeux • Typologie des données manquantes (MAR, MNAR ….) • Méthodes de modélisation des obs. incomplètes • Méthodes sous hypothèse MCAR (obsolètes) • Méthode d’imputation multiple

  3. Introduction • Problématique • Observation incomplète est la règle plus que l’exception • Malgré les moyens/efforts, on observe toujours des données manquantes • Enjeux • Éviter les biais induit par la négligence des données manquantes (ce qui est couramment fait)

  4. Introduction • Prise de conscience récente de l’intérêt d’étudier les données manquantes • Typologie de données manquantes • Little & Rubin (1987) • 3 catégories : • Missing Completely At Random (MCAR) • Missing At Random (MAR) • Missing Not At Random (MNAR)

  5. Introduction : Typologie • MCAR (Missing Completely At Random) • La proba. d’avoir des observations manquantes sur Y est une constante • Ne dépend pas des variables observées X • Ne dépend pas des valeurs de Y • Cela signifie que l’échantillon d’observé est représentatif de l’ensemble de Y • Exemple de MCAR : • Mesure trop coûteuse, on ne procède à la mesure que sur un sous échantillon • Conséquences de MCAR • Perte de précision (Puissance) • Aucun biais

  6. Introduction : Typologie • MAR (Missing At Random) • La proba. D’avoir des observations manquantes sur Y dépend de variables observées X • Ne dépend pas des valeurs de Y • Exemple : • Personnes âgées (X=Age) refusent de donner leur revenu (Y = Revenu) • Conséquences de MAR : • Perte de précision (Puissance) • Aucun biais avec des méthodes statistiques appropriées

  7. Introduction • MNAR (Missing Not At Random) • Proba. D’avoir des observations manquantes sur Y dépend de la variable Y elle même • Exemple : • Personnes avec un revenu important (Y) refusent de le dévoiler (Y) • Conséquences : • Perte de précision (Puissance) • Biais • Besoin de recourir à une analyse de sensibilité

  8. X1 X2 X3 Valeurs manquantes non monotones X1 X2 X3 Valeurs manquantes monotones Introduction • Distinction du type de valeurs manquantes Lorsque la variable Yj est manquante pour un individu cela implique que toutes les variables suivantes Yk pour k > j sont manquantes pour cet individu.

  9. Introduction • Cas des données longitudinales • Le patient s’est présenté à toutes les visites • Le patient a manqué 2 visites • Le patient est perdu de vue (ne vient plus a partir d’une certaine date) 1. Y complètement observé 2. Valeurs manquantes intermittentes 3. Valeurs manquantes monotones

  10. Introduction • Comment déterminer à quel type de données manquantes on a affaire ? • MCAR (non réaliste) • MAR • MNAR (très contraignant pour imputation)  Analyse exploratoire des données manquantes pour se faire une idée • Définir la proportion de données manquantes • Croiser une variable indicatrice d’observation avec les variables observées • Régression logistique : variables associées à la probabilité d’observation

  11. Méthodes imputation (MCAR) • Analyse des Cas Complets • Imputation Simple • LOCF (Last Observed Carried Forward)  Méthodes obsolètes

  12. Analyse des cas complets V1 V2 V3 V4 V1 V2 V3 V4 Observations restantes en analyse des cas complets Données d’origine

  13. Analyse des cas complets • Stratégie usuelle : • Réduire le nombre d’observations aux cas complets • Méthode automatique adoptée par les logiciels statistiques tel que SAS • Conséquences : • Perte de précision • Biais importants (hors MCAR) • Solution : • Compléter les observations manquantes (« Imputation ») • Mais pas n’importe comment !

  14. Imputation Simple • Unconditional mean Imputation • Remplace valeur manquante par la moyenne des valeurs observées sur la variable • Hot Deck Imputation • Même méthode que précédemment mais au sein de strates d’individus « proches » • Autres méthodes…  Méthodes non fiables

  15. LOCF Dans le cas longitudinal : • Last Observation Carried Forward • Assume que la valeur d’une mesure reste la même après la sortie du patient • Hypothèse forte et non réaliste • L’évolution de la valeur dans le temps n’est pas prise en compte • Ne fonctionne pas même sous l’hypothèse MCAR !

  16. Imputation Multiple (Rubin 1987) M jeux de données complets M analyses des données complètes Résultats « poolés » de l’analyse Données incomplètes IMPUTATION « POOLING » ANALYSES Proc REG, LOGISTIC, GENMOD … PROC MI PROC MIANALYZE

  17. Multiple Imputation • Nombre d’imputations nécessaires : • Efficacité relative de l’utilisation d’un nombre fini d’imputation m par rapport à un nombre infini d’imputation pleinement efficaces, en unité de variance (Rubin 1987, p. 114). Rubin préconise entre 3 et 5 imputations seulement

  18. Multiple Imputation AVEC SAS /!\ On est obligé d’avoir un motif des valeurs manquantes monotone pour imputer les variables en classe

  19. Multiple Imputation • Stratégies d’imputation • Motif des données manquantes monotone • Complétion séquentielle • Motif des données manquantes non monotone • Rendre monotone avec MCMC • Utiliser une méthode pour données manquantes monotones OU • Compléter entièrement par MCMC

  20. Multiple Imputation • Exemple de l’imputation par régression • Yj = β0 + β1X1 + β2X2 + … + βkXk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk β0 β1 β2 … βk σ On extrait de façon aléatoire des valeurs de β issu de la distribution des β estimés β*1 β*2 β*3 β*4 β estimés Covariance des β Y*1 Y*2 Y*3 Y*4 On obtient 4 jeux de données complets différents par leurs imputations

  21. Multiple Imputation • Hypothèses statistiques : • Contraintes de normalité des variables sur certains modèles (ex : Régression) • Robustesse à la violation de cette hypothèse • Possibilité de transformer les variables pour procéder à la modélisation / Imputation • Les données manquantes sont MAR • L’IM Impute les données de Y3 à partir des variables Y1 et Y2 mais pas de Y3 • Plus on introduit de covariables explicatives, plus l’hypothèse MAR est plausible

  22. Multiple Imputation • Stratégie sélection des variables pour le modèle d’imputation • Le plus de variables possible : La perte de précision est un petit prix à payer pour la validité du modèle • On ne veut pas un modèle multivarié intelligible mais un modèle performant ! • Variables liés à : • La variable à imputer (logique) • L’observation de la variable à imputer /!\ Ne pas introduire une variable avec trop de données manquantes (ex : >50% vm) • Problème : Plus on introduit de variables explicatives, plus il est dur d’avoir un motif de valeurs manquantes monotone

  23. Multiple Imputation Mise en commun Des estimateurs Analyse stat BD1 β1 BD2 β2 _ Q BD3 β3 BD4 β4 Q = Moyenne des Q Variance Q = Combinaison variance inter imputation et variance intra imputation

  24. Imputation Multiple • Exemple FRATER : • N=2007 patients en réanimation répartis en 4 Offices • But : Estimer l’effet de l’office d’affectation sur la survenue d’ablation de tuyaux Office A 4 lits Office B 4 lits Office C 4 lits Office D 6 lits Problème : 43 patients pour lesquels l’ Office est manquant

  25. Multiple Imputation • Variables utilisées pour Imputer : • Age, SAPS II, Durée de séjour • Problème : • Age : 2 manquants • SAPS II : 11 manquants • Besoin de motif d’observation MONOTONE pour imputer une variable qualitative • Solution : • Complétion des variables AGE et SAPS II • Puis complétion de la variable OFFICE

  26. Multiple Imputation 5 Sets avec AGE, SAPS II, DUREE REA complétés par MCMC 5 Sets avec OFFICE complété par régression logistique 5 Analyses avec SAS 5 résultats différents 1 résultat « poolé »

  27. Multiple Imputation 1. Complétion des variables explicatives PROC MI data=frater.patients out=impute nimpute=5; MCMC impute=full ; VAR igs_ii dureerea age ; run;

  28. Multiple Imputation 2. Complétion des offices par régression logistique PROC MI data=impute nimpute=1 seed=1305417 out=final; CLASS office; MONOTONE logistic; VAR igs_ii dureerea age office; BY _imputation_; run; Fréquences des Office dans les 5 bases

  29. Multiple Imputation 1 2 3 1 • 1. Augmentation de la variance liée a la non observation • 2. Part d’information manquante sur le paramètre Q due à la non observation (Q = effet de l’office du patient sur l’incident) • 3. Efficacité de 5 imputations par rapport à un nombre infini d’imputation 2 3

  30. Multiple Imputation 3. Modélisation du risque d’incident en fonction de l’office 5 Régressions logistiques  5 jeux de données imputés PROC LOGISTIC data=final outest=outlog covout desc; CLASS office; MODEL incident= office ; BY _imputation_; run; 4. Mise en commun des résultats des 5 modèles de RL PROC MIANALYZE data=outlog ; MODELEFFECTS intercept officeA officeB officeC; run;

  31. Multiple Imputation Analyse des cas complets Analyse avec Imputations Q Possibilité de tester la différence entre les estimateurs obtenus sur cas complets et sur données imputées (Aucune différence dans notre cas)

  32. Multiple Imputation • Avantages • Méthode robuste et efficace avec peu d’imputations • Reflète l’incertitude due aux données manquantes dans les résultats • Assez simple à mettre en place • Hypothèse MAR plausible avec un grand nombre de variables explicatives • Inconvénients • Ne permet pas de seulement compléter une base de données… mais oblige à réaliser une analyse statistique • Contrainte du motif des données manquantes et des modèles d’imputations liés • Plus on introduit de variables explicatives plus c’est difficile d’avoir un motif d’observation monotone • Problèmes si il y a plusieurs type de variables (continue ou en classe)

More Related