S'abonner

Snds2vec, représentations continues pour les concepts médicaux du Système national des données de santé - 28/02/20

Doi : 10.1016/j.respe.2020.01.077 
M. Doutreligne , A. Leduc, D.-P. Nguyen, A. Vuagnat
 Direction de la recherche, des études, de l’évaluation et des statistiques, Bureau état de santé de la population, Paris, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Les bases de données médico-administratives sont des sources d’information très riches sur les systèmes de soin. Cependant, leur exploitation est délicate à cause de leur complexité. En appliquant aux séquences de soins une méthode similaire à l’approche word2vec ayant révolutionné le traitement automatique du langage, nous proposons des représentations vectorielles riches reflétant les interactions (co-occurrences) au cours des parcours de soins entre les codes ou évènements de quatre grandes terminologies médicales françaises.

Méthodes

Un échantillon à 4 % du Système national des données de santé (SNDS) de 2008 à 2016 est utilisé. Dans cet ensemble, sont considérés les codes de diagnostics en CIM10, les actes médicaux en CCAM, les prescriptions médicamenteuses en ATC et les actes de biologie en NABM, soit 980 millions au total. Le nombre de codes rubriques distincts est 4739. L’approche retenue est une implémentation de word2vec factorisant la matrice de co-occurrences des codes dans une fenêtre glissante de 60jours. Pour chaque code distinct, un vecteur de dimension 150 est calculé (« embedding »). Cela permet de calculer des distances entre codes.

Résultats

Pour évaluer l’utilité de ces représentations, deux approches qualitatives ont été menées :

– projection en deux dimensions des vecteurs de coordonnées des 4739 codes : mise en évidence de groupes d’évènements reflétant le traitement d’une pathologie ;

– les proximités entre divers codes sont étudiées par ordre décroissant de distance. Par exemple, pour l’insuffisance cardiaque (I50), le code le plus proche est un code diagnostic de fibrillation et flutter auriculaires (I48), le médicament le plus proche est un antiarythmique, l’amiodarone (C01BD01), l’acte le plus proche est l’échographie du cœur (sous-chapitre 04.01.03.01), le code NABM le plus proche est le dosage de la digoxine (327).

Discussion/conclusion

Cette première application de représentation des informations médicales du SNDS semble prometteuse pour décrire les liens entre les codes. Les travaux sont poursuivis pour tester en particulier l’effet de la taille de la fenêtre d’observation, le niveau d’agrégation des codes, la pondération des décomptes. Les résultats seront mis en ligne.

Le texte complet de cet article est disponible en PDF.

Plan


© 2020  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 68 - N° S1

P. S35 - mars 2020 Retour au numéro
Article précédent Article précédent
  • Déterminants des dépenses de santé post-phase aiguë de l’accident vasculaire cérébral en France
  • D. Sika-Kossi, D. Bricard
| Article suivant Article suivant
  • Devenir à long terme des personnes âgées hospitalisées en réanimation pour infection respiratoire aiguë
  • L. Grammatico-Guillon, C. Hermetet, Y. Lemanach, C. Gaborit, L. Laporte, A. Guillon

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.