Fidélité des bases de données relationnelles synthétiques contenant des données catégorielles à haute dimension : proposition d'une méthode d'évaluation - 10/03/26
, Jassim BENSAFIR 2, Antoine LAMER 1, Jean-Baptiste BEUSCART 1, Michaël GÉNIN 1, Amadou Tidiane NIANG 1, Slim HAMMADI 2, Emmanuel CHAZARD 3Résumé |
Introduction |
La réutilisation des données s’impose comme un levier central pour la recherche en santé, mais les contraintes réglementaires en limitent la portée. Les données synthétiques constituent une voie prometteuse, mais posent de nouveaux défis : évaluer leur fidélité et leur capacité à reproduire les caractéristiques statistiques des données réelles. Les approches de validation conventionnelles reposent souvent sur des comparaisons univariées ou bivariées, insuffisantes pour capturer la complexité des interactions entre variables catégorielles, notamment lorsque celles-ci sont multivaluées comportant des milliers de modalités.
Méthodes |
Nous avons étudié une base de données fictive de 10000 séjours hospitaliers reproduisant la structure de la base du PMSI. Chaque séjour comprenait des variables monovaluées (une modalité possible : sexe, âge en déciles et GHM) et des variables multivaluées (zéro, une ou plusieurs modalités possibles : diagnostics codés en CIM-10 et actes médicaux codés en CCAM).
Toutes les variables catégorielles ont été binarisées et des milliers de mesures d’association par paires de modalités (ex. odds ratio) ont été calculées dans les bases de référence et à évaluer. Les résultats ont été résumés par des courbes, graphiques à bulles, heatmaps et coefficients (ex. écart moyen exponentiel). Des dégradations simulées des données de 0% à 100% ont été introduites pour évaluer la sensibilité de la méthode.
Résultats |
Au total, 500 diagnostics CIM-10 et 450 actes CCAM (soit 225000 combinaisons possibles) ont été analysés. Nous avons développé et évalué des représentations graphiques permettant d’évaluer la fidélité en un coup d’œil. Dans les scénarios de dégradation croissante, ces représentations et mesures quantitatives ont permis de détecter la perte progressive de fidélité.
Discussion/Conclusion |
Nous avons développé une méthode simple, visuelle et agnostique pour évaluer la fidélité des bases de données de santé en analysant la co-occurrence des modalités des variables catégorielles. Cette méthode complète les approches existantes et est adaptée à l'évaluation des bases de données relationnelles synthétiques, offrant une vision globale et granulaire de la perte de fidélité des données.
Le texte complet de cet article est disponible en PDF.Mots-clés : Données synthétiques, Bases de données relationnelles, Corrélation des données
Vol 74 - N° S1
Article 203231- mars 2026 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
