Implémentation de méthodes de « machine learning » à la production des données des causes médicales de décès - 28/02/20
, D. Martin, A. Robert, L. Falissard, G. ReyRésumé |
Introduction |
Le codage des causes médicales de décès est centralisé et réalisé par des nosologistes aidés d’un système expert. Devant l’enjeu de santé publique, dans un contexte de manque de ressources humaines et d’amélioration de la production des données, l’utilisation de méthodes de « machine learning » est actuellement testée. Les causes médicales sont renseignées par les médecins sur les certificats de décès avec une grande variété d’expressions. La première étape, dite de traitement automatique des langues (TAL), consiste à transposer chaque terme du certificat en code CIM. La seconde étape, dite d’identification de la cause initiale (ICI), permet de déduire de ces causes multiples, la cause initiale de décès selon des règles pré-établies par l’organisation mondiale de la santé (OMS). Cet article décrit la démarche retenue pour développer ces méthodes et illustre les bénéfices et difficultés d’une mise en production efficiente.
Méthodes |
Aussi bien pour l’étape de TAL et d’ICI, les méthodes faisant appel à des systèmes de règles ou d’apprentissage statistique, dont le « deep learning » ont été appliquées sur les trois millions de décès survenus entre 2011 et 2016. Les outils ont été utilisés pour les deux étapes de codage. Le « gold standard » utilisé pour prédire ou évaluer les résultats était le codage finalisé par le binôme système expert/nosologistes. Une analyse des différences a été faite pour identifier les observations qui nécessiteront une reprise humaine.
Résultats |
Les meilleures performances sont obtenues avec des outils de « deep learning » : 93,5 % pour la première étape contre 82 % avec la méthode classique et 97,8 % pour la seconde. Cependant, l’analyse des erreurs montrent que sur certains chapitres les outils sont moins performants (décès périnataux, décès par causes externes, maladies du système nerveux notamment).
Discussion/Conclusion |
Devant la persistance de cas complexes et l’évolution régulière des règles de codage, et malgré l’excellente performance des outils de « deep learning », l’intégration des outils de « machine learning » dans une chaîne de production nécessite l’élaboration d’une stratégie rigoureuse combinant le « deep learning », les systèmes experts et l’expertise humaine.
Le texte complet de cet article est disponible en PDF.Mots clés : Machine learning, Production de données, Causes de décès
Plan
Vol 68 - N° S1
P. S28 - mars 2020 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
