L’imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d’une méthode Monte-Carlo - 19/10/09
pages | 12 |
Iconographies | 1 |
Vidéos | 0 |
Autres | 0 |
Abstract |
Background |
Statistical analysis of a data set with missing data is a frequent problem to deal with in epidemiology. Methods are available to manage incomplete observations, avoiding biased estimates and improving their precision, compared to more traditional methods, such as the analysis of the sub-sample of complete observations.
Methods |
One of these approaches is multiple imputation, which consists in imputing successively several values for each missing data item. Several completed data sets having the same distribution characteristics as the observed data (variability and correlations) are thus generated. Standard analyses are done separately on each completed dataset then combined to obtain a global result. In this paper, we discuss the various assumptions made on the origin of missing data (at random or not), and we present in a pragmatic way the process of multiple imputation. A recent method, Multiple Imputation by Chained Equations (MICE), based on a Monte-Carlo Markov Chain algorithm under missing at random data (MAR) hypothesis, is described. An illustrative example of the MICE method is detailed for the analysis of the relation between a dichotomous variable and two covariates presenting MAR data with no particular structure, through multivariate logistic regression.
Results |
Compared with the original dataset without missing data, the results show a substantial improvement of the regression coefficient estimates with the MICE method, relatively to those obtained on the dataset with complete observations.
Conclusion |
This method does not require any direct assumption on joint distribution of the variables and it is presently implemented in standard statistical software (Splus, Stata). It can be used for multiple imputation of missing data of several variables with no particular structure.
Le texte complet de cet article est disponible en PDF.Résumé |
Position du problème |
La question du traitement statistique d’un jeu de données comportant des données manquantes se pose fréquemment, notamment en épidémiologie, et constitue un champ de recherche méthodologique dynamique. Aujourd’hui, des méthodes existent pour mener de telles analyses statistiques en présence d’observations incomplètes, permettant un réel saut qualitatif en termes de performance des résultats (diminution du biais des estimations et amélioration de la précision de celles-ci) par rapport aux méthodes proposées antérieurement, comme l’analyse du sous-échantillon avec des données complètes.
Méthodes |
Une des approches est l’imputation multiple, qui consiste à imputer successivement plusieurs valeurs à chaque donnée manquante. Plusieurs jeux de données complétés sont ainsi générés, respectant les caractéristiques de la distribution des données observées (variabilité et corrélations entre les variables). Des analyses standard sont ensuite menées séparément sur chaque jeu de données complété, puis leurs résultats combinés pour fournir un résultat global. Les différentes hypothèses faites sur l’origine des données manquantes (aléatoirement ou non) sont discutées dans cet article, et la mise en œuvre de l’imputation multiple est présentée dans une optique pragmatique, depuis la phase d’imputation jusqu’à l’obtention du résultat final. Une méthode moderne, appelée Multiple Imputation by Chained Equations (MICE), basée sur un algorithme Monte-Carlo Markov Chain, utilisable dans le cas des données manquantes aléatoirement (MA), est décrite. Un exemple d’application de cette méthode est détaillé dans le cas de l’analyse, via une régression logistique multiple, de la liaison entre une variable dichotomique et des covariables qualitatives. Pour deux d’entre elles, des données ont été rendues manquantes aléatoirement sans structure particulière.
Résultats |
En comparaison avec le jeu de données initial sans données manquantes, les résultats de la méthode MICE montrent une franche amélioration des performances dans l’estimation des coefficients de la régression par rapport à celles des résultats obtenus à partir de l’analyse des observations avec des données complètes.
Conclusion |
La méthode MICE ne fait pas d’hypothèse directe sur la distribution jointe des variables du jeu de données, ce qui offre un cadre d’utilisation souple. Cette procédure est aujourd’hui implémentée au sein de logiciels statistiques largement diffusés (Splus ou R, Stata) et présente l’avantage d’être utilisable pour l’imputation des valeurs manquantes de plusieurs variables sans structure particulière.
Le texte complet de cet article est disponible en PDF.Keywords : Missing data, Missing at random, Multiple imputation, MCMC
Mots clés : Données manquantes, Données manquantes aléatoirement, Imputation multiple, MCMC
Plan
Vol 57 - N° 5
P. 361-372 - octobre 2009 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?