S'abonner

L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo - 19/10/09

Doi : 10.1016/j.respe.2009.04.011 
G. Cottrell a, , M. Cot b, J.-Y. Mary c
a UR010, santé de la mère et de l’enfant en milieu tropical, institut de recherche pour le développement, 08 BP 841, Cotonou, Bénin 
b UR010 santé de la mère et de l’enfant en milieu tropical, institut de recherche pour le développement, Paris, France 
c Inserm, U717, hôpital Saint-Louis, université Paris-7, Paris, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages 12
Iconographies 1
Vidéos 0
Autres 0

Abstract

Background

Statistical analysis of a data set with missing data is a frequent problem to deal with in epidemiology. Methods are available to manage incomplete observations, avoiding biased estimates and improving their precision, compared to more traditional methods, such as the analysis of the sub-sample of complete observations.

Methods

One of these approaches is multiple imputation, which consists in imputing successively several values for each missing data item. Several completed data sets having the same distribution characteristics as the observed data (variability and correlations) are thus generated. Standard analyses are done separately on each completed dataset then combined to obtain a global result. In this paper, we discuss the various assumptions made on the origin of missing data (at random or not), and we present in a pragmatic way the process of multiple imputation. A recent method, Multiple Imputation by Chained Equations (MICE), based on a Monte-Carlo Markov Chain algorithm under missing at random data (MAR) hypothesis, is described. An illustrative example of the MICE method is detailed for the analysis of the relation between a dichotomous variable and two covariates presenting MAR data with no particular structure, through multivariate logistic regression.

Results

Compared with the original dataset without missing data, the results show a substantial improvement of the regression coefficient estimates with the MICE method, relatively to those obtained on the dataset with complete observations.

Conclusion

This method does not require any direct assumption on joint distribution of the variables and it is presently implemented in standard statistical software (Splus, Stata). It can be used for multiple imputation of missing data of several variables with no particular structure.

Le texte complet de cet article est disponible en PDF.

Résumé

Position du problème

La question du traitement statistique d’un jeu de données comportant des données manquantes se pose fréquemment, notamment en épidémiologie, et constitue un champ de recherche méthodologique dynamique. Aujourd’hui, des méthodes existent pour mener de telles analyses statistiques en présence d’observations incomplètes, permettant un réel saut qualitatif en termes de performance des résultats (diminution du biais des estimations et amélioration de la précision de celles-ci) par rapport aux méthodes proposées antérieurement, comme l’analyse du sous-échantillon avec des données complètes.

Méthodes

Une des approches est l’imputation multiple, qui consiste à imputer successivement plusieurs valeurs à chaque donnée manquante. Plusieurs jeux de données complétés sont ainsi générés, respectant les caractéristiques de la distribution des données observées (variabilité et corrélations entre les variables). Des analyses standard sont ensuite menées séparément sur chaque jeu de données complété, puis leurs résultats combinés pour fournir un résultat global. Les différentes hypothèses faites sur l’origine des données manquantes (aléatoirement ou non) sont discutées dans cet article, et la mise en œuvre de l’imputation multiple est présentée dans une optique pragmatique, depuis la phase d’imputation jusqu’à l’obtention du résultat final. Une méthode moderne, appelée Multiple Imputation by Chained Equations (MICE), basée sur un algorithme Monte-Carlo Markov Chain, utilisable dans le cas des données manquantes aléatoirement (MA), est décrite. Un exemple d’application de cette méthode est détaillé dans le cas de l’analyse, via une régression logistique multiple, de la liaison entre une variable dichotomique et des covariables qualitatives. Pour deux d’entre elles, des données ont été rendues manquantes aléatoirement sans structure particulière.

Résultats

En comparaison avec le jeu de données initial sans données manquantes, les résultats de la méthode MICE montrent une franche amélioration des performances dans l’estimation des coefficients de la régression par rapport à celles des résultats obtenus à partir de l’analyse des observations avec des données complètes.

Conclusion

La méthode MICE ne fait pas d’hypothèse directe sur la distribution jointe des variables du jeu de données, ce qui offre un cadre d’utilisation souple. Cette procédure est aujourd’hui implémentée au sein de logiciels statistiques largement diffusés (Splus ou R, Stata) et présente l’avantage d’être utilisable pour l’imputation des valeurs manquantes de plusieurs variables sans structure particulière.

Le texte complet de cet article est disponible en PDF.

Keywords : Missing data, Missing at random, Multiple imputation, MCMC

Mots clés : Données manquantes, Données manquantes aléatoirement, Imputation multiple, MCMC


Plan


© 2009  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 57 - N° 5

P. 361-372 - octobre 2009 Retour au numéro
Article précédent Article précédent
  • Irradiations à faibles doses et risque de pathologie cardiovasculaire : revue des études épidémiologiques
  • C. Metz-Flamant, A. Bonaventure, F. Milliat, M. Tirmarche, D. Laurier, M.-O. Bernier
| Article suivant Article suivant
  • Fistule urogénitale d’origine obstétricale (Fugo) : coût de la prise en charge à l’hôpital national de Niamey (Niger)
  • P. Ndiaye, G. Amoul Kini, F. Adama, A. Idrissa, A. Tal-Dia

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.