Fidélité des bases de données relationnelles synthétiques contenant des données catégorielles à haute dimension : proposition d'une méthode d'évaluation - 10/03/26

Doi : 10.1016/j.jeph.2026.203231

Roxane GIRAULT ^1,^⁎ , Jassim BENSAFIR ², Antoine LAMER ¹, Jean-Baptiste BEUSCART ¹, Michaël GÉNIN ¹, Amadou Tidiane NIANG ¹, Slim HAMMADI ², Emmanuel CHAZARD ³

¹ Univ. Lille, CHU Lille, ULR 2694 METRICS, Cerim, F-59000 Lille, France

² CRISTAL, Ecole Centrale of Lille, Cite Scientifique, 59650, Villeneuve d’Ascq, France

³ Univ. Lille, CHU Lille, Inria, ULR2694 Metrics, Cerim, Datavers, F-59000 Lille, France

^⁎ Auteur correspondant.

Résumé

Introduction

La réutilisation des données s’impose comme un levier central pour la recherche en santé, mais les contraintes réglementaires en limitent la portée. Les données synthétiques constituent une voie prometteuse, mais posent de nouveaux défis : évaluer leur fidélité et leur capacité à reproduire les caractéristiques statistiques des données réelles. Les approches de validation conventionnelles reposent souvent sur des comparaisons univariées ou bivariées, insuffisantes pour capturer la complexité des interactions entre variables catégorielles, notamment lorsque celles-ci sont multivaluées comportant des milliers de modalités.

Méthodes

Nous avons étudié une base de données fictive de 10000 séjours hospitaliers reproduisant la structure de la base du PMSI. Chaque séjour comprenait des variables monovaluées (une modalité possible : sexe, âge en déciles et GHM) et des variables multivaluées (zéro, une ou plusieurs modalités possibles : diagnostics codés en CIM-10 et actes médicaux codés en CCAM).

Toutes les variables catégorielles ont été binarisées et des milliers de mesures d’association par paires de modalités (ex. odds ratio) ont été calculées dans les bases de référence et à évaluer. Les résultats ont été résumés par des courbes, graphiques à bulles, heatmaps et coefficients (ex. écart moyen exponentiel). Des dégradations simulées des données de 0% à 100% ont été introduites pour évaluer la sensibilité de la méthode.

Résultats

Au total, 500 diagnostics CIM-10 et 450 actes CCAM (soit 225000 combinaisons possibles) ont été analysés. Nous avons développé et évalué des représentations graphiques permettant d’évaluer la fidélité en un coup d’œil. Dans les scénarios de dégradation croissante, ces représentations et mesures quantitatives ont permis de détecter la perte progressive de fidélité.

Discussion/Conclusion

Nous avons développé une méthode simple, visuelle et agnostique pour évaluer la fidélité des bases de données de santé en analysant la co-occurrence des modalités des variables catégorielles. Cette méthode complète les approches existantes et est adaptée à l'évaluation des bases de données relationnelles synthétiques, offrant une vision globale et granulaire de la perte de fidélité des données.

Le texte complet de cet article est disponible en PDF.

Mots-clés : Données synthétiques, Bases de données relationnelles, Corrélation des données

Export

Vol 74 - N° S1

Article 203231- mars 2026 Retour au numéro

Article précédent

Constitution d’une cohorte de patients opérés pour Tumeur Intracanalaire Papillaire et Mucineuse (TIPMP) et extraction automatisée des caractéristiques tumorales à partir de l’Entrepôt de Données de Santé (EDS) de l’AP-HP à l’aide d’algorithmes de recherche textuelle et de modèles de langage de grande taille (LLM)
Paul BRASSEUR, Kankoé SALLAH, Axelle DUPONT, Jérôme CROS

| Article suivant

Efficacité relative du nirsévimab par rapport au vaccin maternel RSVpreF dans la prévention des hospitalisations dues au virus respiratoire syncytial chez les nouveau-nés
Marie-Joelle JABAGI, Marion BERTRAND, Amélie GABET, Epiphane KOLLA, Valerie OLIÉ, Mahmoud ZUREIK

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Fidélité des bases de données relationnelles synthétiques contenant des données catégorielles à haute dimension : proposition d'une méthode d'évaluation - 10/03/26

Résumé

Introduction

Méthodes

Résultats

Discussion/Conclusion

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL