Implémentation de méthodes de « machine learning » à la production des données des causes médicales de décès - 28/02/20

Doi : 10.1016/j.respe.2020.01.062

C. Morgand ^⁎ , D. Martin, A. Robert, L. Falissard, G. Rey
Centre d’épidémiologie sur les causes médicales de Décès (CépiDc, Inserm), Le Kremlin-Bicêtre, France

^⁎Auteur correspondant.

connectez-vous ou créez un compte

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Le codage des causes médicales de décès est centralisé et réalisé par des nosologistes aidés d’un système expert. Devant l’enjeu de santé publique, dans un contexte de manque de ressources humaines et d’amélioration de la production des données, l’utilisation de méthodes de « machine learning » est actuellement testée. Les causes médicales sont renseignées par les médecins sur les certificats de décès avec une grande variété d’expressions. La première étape, dite de traitement automatique des langues (TAL), consiste à transposer chaque terme du certificat en code CIM. La seconde étape, dite d’identification de la cause initiale (ICI), permet de déduire de ces causes multiples, la cause initiale de décès selon des règles pré-établies par l’organisation mondiale de la santé (OMS). Cet article décrit la démarche retenue pour développer ces méthodes et illustre les bénéfices et difficultés d’une mise en production efficiente.

Méthodes

Aussi bien pour l’étape de TAL et d’ICI, les méthodes faisant appel à des systèmes de règles ou d’apprentissage statistique, dont le « deep learning » ont été appliquées sur les trois millions de décès survenus entre 2011 et 2016. Les outils ont été utilisés pour les deux étapes de codage. Le « gold standard » utilisé pour prédire ou évaluer les résultats était le codage finalisé par le binôme système expert/nosologistes. Une analyse des différences a été faite pour identifier les observations qui nécessiteront une reprise humaine.

Résultats

Les meilleures performances sont obtenues avec des outils de « deep learning » : 93,5 % pour la première étape contre 82 % avec la méthode classique et 97,8 % pour la seconde. Cependant, l’analyse des erreurs montrent que sur certains chapitres les outils sont moins performants (décès périnataux, décès par causes externes, maladies du système nerveux notamment).

Discussion/Conclusion

Devant la persistance de cas complexes et l’évolution régulière des règles de codage, et malgré l’excellente performance des outils de « deep learning », l’intégration des outils de « machine learning » dans une chaîne de production nécessite l’élaboration d’une stratégie rigoureuse combinant le « deep learning », les systèmes experts et l’expertise humaine.

Le texte complet de cet article est disponible en PDF.

Mots clés : Machine learning, Production de données, Causes de décès

Plan

Déclaration de liens d’intérêts

Export

Vol 68 - N° S1

P. S28 - mars 2020 Retour au numéro

Article précédent

Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris
S. Karunakaran, D. Van Gysel, S. Guinemer, I. Mahe, K. Sallah

| Article suivant

Analyse des durées d’hospitalisation : une alternative à l’Indice de performance de la durée moyenne de séjour (IPDMS)
C. Laueriere, X. Lenne, B. Dervaux, D. Theis, A. Bruandet

Bienvenue sur EM-consulte, la référence des professionnels de santé.

connectez-vous ou créez un compte

Implémentation de méthodes de « machine learning » à la production des données des causes médicales de décès - 28/02/20

Résumé

Introduction

Méthodes

Résultats

Discussion/Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL