L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo - 19/10/09

Doi : 10.1016/j.respe.2009.04.011

G. Cottrell ^a,^⁎ , M. Cot ^b, J.-Y. Mary ^c
^a UR010, santé de la mère et de l’enfant en milieu tropical, institut de recherche pour le développement, 08 BP 841, Cotonou, Bénin
^b UR010 santé de la mère et de l’enfant en milieu tropical, institut de recherche pour le développement, Paris, France
^c Inserm, U717, hôpital Saint-Louis, université Paris-7, Paris, France

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages	12
Iconographies	1
Vidéos	0
Autres	0

Abstract

Background

Statistical analysis of a data set with missing data is a frequent problem to deal with in epidemiology. Methods are available to manage incomplete observations, avoiding biased estimates and improving their precision, compared to more traditional methods, such as the analysis of the sub-sample of complete observations.

Methods

One of these approaches is multiple imputation, which consists in imputing successively several values for each missing data item. Several completed data sets having the same distribution characteristics as the observed data (variability and correlations) are thus generated. Standard analyses are done separately on each completed dataset then combined to obtain a global result. In this paper, we discuss the various assumptions made on the origin of missing data (at random or not), and we present in a pragmatic way the process of multiple imputation. A recent method, Multiple Imputation by Chained Equations (MICE), based on a Monte-Carlo Markov Chain algorithm under missing at random data (MAR) hypothesis, is described. An illustrative example of the MICE method is detailed for the analysis of the relation between a dichotomous variable and two covariates presenting MAR data with no particular structure, through multivariate logistic regression.

Results

Compared with the original dataset without missing data, the results show a substantial improvement of the regression coefficient estimates with the MICE method, relatively to those obtained on the dataset with complete observations.

Conclusion

This method does not require any direct assumption on joint distribution of the variables and it is presently implemented in standard statistical software (Splus, Stata). It can be used for multiple imputation of missing data of several variables with no particular structure.

Le texte complet de cet article est disponible en PDF.

Résumé

Position du problème

La question du traitement statistique d’un jeu de données comportant des données manquantes se pose fréquemment, notamment en épidémiologie, et constitue un champ de recherche méthodologique dynamique. Aujourd’hui, des méthodes existent pour mener de telles analyses statistiques en présence d’observations incomplètes, permettant un réel saut qualitatif en termes de performance des résultats (diminution du biais des estimations et amélioration de la précision de celles-ci) par rapport aux méthodes proposées antérieurement, comme l’analyse du sous-échantillon avec des données complètes.

Méthodes

Une des approches est l’imputation multiple, qui consiste à imputer successivement plusieurs valeurs à chaque donnée manquante. Plusieurs jeux de données complétés sont ainsi générés, respectant les caractéristiques de la distribution des données observées (variabilité et corrélations entre les variables). Des analyses standard sont ensuite menées séparément sur chaque jeu de données complété, puis leurs résultats combinés pour fournir un résultat global. Les différentes hypothèses faites sur l’origine des données manquantes (aléatoirement ou non) sont discutées dans cet article, et la mise en œuvre de l’imputation multiple est présentée dans une optique pragmatique, depuis la phase d’imputation jusqu’à l’obtention du résultat final. Une méthode moderne, appelée Multiple Imputation by Chained Equations (MICE), basée sur un algorithme Monte-Carlo Markov Chain, utilisable dans le cas des données manquantes aléatoirement (MA), est décrite. Un exemple d’application de cette méthode est détaillé dans le cas de l’analyse, via une régression logistique multiple, de la liaison entre une variable dichotomique et des covariables qualitatives. Pour deux d’entre elles, des données ont été rendues manquantes aléatoirement sans structure particulière.

Résultats

En comparaison avec le jeu de données initial sans données manquantes, les résultats de la méthode MICE montrent une franche amélioration des performances dans l’estimation des coefficients de la régression par rapport à celles des résultats obtenus à partir de l’analyse des observations avec des données complètes.

Conclusion

La méthode MICE ne fait pas d’hypothèse directe sur la distribution jointe des variables du jeu de données, ce qui offre un cadre d’utilisation souple. Cette procédure est aujourd’hui implémentée au sein de logiciels statistiques largement diffusés (Splus ou R, Stata) et présente l’avantage d’être utilisable pour l’imputation des valeurs manquantes de plusieurs variables sans structure particulière.

Le texte complet de cet article est disponible en PDF.

Keywords : Missing data, Missing at random, Multiple imputation, MCMC

Mots clés : Données manquantes, Données manquantes aléatoirement, Imputation multiple, MCMC

Plan

Introduction

Formalisation de la nature des données manquantes

Mécanisme de réponse

Les différentes hypothèses sur les données manquantes

L’hypothèse de données manquantes aléatoirement

Le cas particulier des données manquantes complètement aléatoirement (MCA)

Les données manquantes non aléatoirement

Intérêt de l’hypothèse MA

Les méthodes traditionnelles

Les méthodes « modernes »

L’imputation multiple

Construction du modèle d’imputation

Mise en œuvre de l’imputation multiple

Données manquantes à structure monotone ()

Données manquantes à structure arbitraire

La méthode multiple imputation by chained equations (MICE)

La méthode de Schafer

Les règles de Rubin pour l’inférence statistique

Paramètres diagnostiques

Exemple d’application de la méthode MICE

Les variables du modèle d’imputation

Export

Vol 57 - N° 5

P. 361-372 - octobre 2009 Retour au numéro

Article précédent

Irradiations à faibles doses et risque de pathologie cardiovasculaire : revue des études épidémiologiques
C. Metz-Flamant, A. Bonaventure, F. Milliat, M. Tirmarche, D. Laurier, M.-O. Bernier

| Article suivant

Fistule urogénitale d’origine obstétricale (Fugo) : coût de la prise en charge à l’hôpital national de Niamey (Niger)
P. Ndiaye, G. Amoul Kini, F. Adama, A. Idrissa, A. Tal-Dia

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo - 19/10/09

Abstract

Background

Methods

Results

Conclusion

Résumé

Position du problème

Méthodes

Résultats

Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL