S'abonner

Simulation et imputation de plusieurs variables corrélées dans un contexte de données manquantes de façon non aléatoires (MNAR) - 22/05/21

Doi : 10.1016/j.respe.2021.04.052 
J. De Keizer a, J. Paul a, M. Albouy b, A. Dupuis b, V. Migeot b, S. Rabouan b, N. Venisse b, E. Gand c,
a Centre hospitalier universitaire de Poitiers, Direction de la recherche, Poitiers, France 
b Université de Poitiers, Faculté de médecine et pharmacie, CHU Poitiers, Health Endocrine Disruptors Exposome (HEDEX), Inserm CIC1402, Poitiers, France 
c Centre d’investigation clinique Poitiers, Inserm1402, Poitiers, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Les dosages biologiques sont tous soumis à une limite de quantification (LOQ) des méthodes analytiques utilisées. Cela amène à analyser dans les études des variables contenant des données manquantes (DM) de façon non aléatoires (MNAR). Plusieurs dosages issus des mêmes échantillons peuvent être à la fois corrélés entre eux et faire l’objet de DM liées à une limite de quantification. L’objectif du projet est de réussir à simuler ce type de DM afin d’étudier et de comparer les différentes techniques d’imputations simple et multiple proposées dans le cas de données manquantes MNAR.

Méthodes

La cohorte EDDS (« Endocrine Disrupting Deux-Sèvres »), visant à comparer des méthodes d’estimation de l’exposition hydrique aux perturbateurs endocriniens chez des femmes enceintes, a donné lieu à la création d’une base de données contenant cinq variables corrélées avec des données manquantes MNAR. L’étude porte sur les différentes formes de Bisphénol A chlorés pouvant se retrouver dans l’eau à destination de consommation humaine sous les formes mono, bi, tri ou tétrachlorées. Les dosages des cinq molécules montrent une LOQ atteinte dans au moins 35 % des échantillons et jusqu’à 88 % de données non quantifiables. Les différentes formes de la molécule cohabitent dans l’eau, leurs concentrations sont liées. La simulation des données d’étude est réalisée à partir de l’exponentielle de plusieurs lois normales dont les paramètres ont été fixés à la suite de l’observation des différentes distributions des données de la cohorte EDDS. Des contraintes supplémentaires ont été ajoutées nécessitant la création de set de données par itérations jusqu’à obtenir cinq variables corrélées ayant des taux de DM différents les uns des autres. Les méthodes d’imputation comparées sur les données simulées sont l’imputation simple par la moitié de la valeur de LOQ (HM), les imputations multiples : QRILC, MICE, BLOQ, GSimp, et kNN-TN. Ces méthodes sont comparées à l’aide de l’indicateur NRMSE.

Résultats

Les paramètres de la simulation sont la création d’une base de données de 100 dosages, contenant cinq variables continues avec un taux de DM respectivement de 30 %, 45 %, 60 %, 75 % et 90 %. La corrélation de Spearman souhaitée entre les différentes variables est comprise entre [0,30 ; 0,85]. Chacune des cinq variables simulées a une moyenne et un écart type spécifiques et fixes, associés à l’exponentielle d’une loi normale. Ces paramètres sont choisis afin de se rapprocher le plus possible des données de la cohorte EDDS. Cent sets de données sont construits. La médiane (Quartile1- Quartile3) des itérations nécessaires à leur création est de 2028 (902-3438) pour un temps médian machine de 6,5 (2,8-10,8) secondes. Les différentes méthodes d’imputation citées sont appliquées sur ces données. Les méthodes HM et GSimp montrent la plus faible différence entre les données simulées et celles imputées. Leurs performances évaluées par NRMSE pour ces deux méthodes d’imputation sont proches.

Conclusion

Les techniques itératives permettent de simuler des variables corrélées les unes aux autres en présence de données manquantes MNAR. Les méthodes HM et GSimp semblent les plus performantes pour imputer des variables contenant ce type de données manquantes. La prise en compte de différentes LOQ au sein d’une même variable, de variables d’ajustement et de tailles de jeux de simulations différentes sont les perspectives de travail de cette étude.

Le texte complet de cet article est disponible en PDF.

Mots clés : Données manquantes, MNAR, Corrélation, Imputation


Plan


© 2021  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 69 - N° S1

P. S32-S33 - juin 2021 Retour au numéro
Article précédent Article précédent
  • Facteurs socio-comportementaux associés à la mortalité de cause hépatique et non hépatique chez les patients atteints d’hépatite C chronique (cohorte ANRS CO22 HEPATHER)
  • C. Protopopescu, C. Ramier, E. Delarocque-Astagneau, V. Di Beo, M. Bourlière, C. Cagnot, D. Larrey, C. Dorival, M. Santos, H. Fontaine, P. Carrieri, S. Pol, F. Carrat, F. Marcellin
| Article suivant Article suivant
  • Evaluation by simulation of clinical trial designs for evaluation of treatment during a viral haemorrhagic fever outbreak
  • P. Manchon, D. Belhadi, F. Mentré, C. Laouénan

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.