CO10.2 - Comparaison de différentes méthodes de machine learning supervisé pour l'aide au diagnostic médical des nodules thyroïdiens - 20/04/23
, S. Benidir 2, G. D'andréa 1, 2, C. Gilet 2, Y. Chateau 1, L. Le Large 3, L. Ouaret 3, C. Dutreve 3, R. Schiappa 1, A. Bozec 4, T. Pace-Loscos 1, L. Fillatre 2, D. Culié 4, E. Chamorey 1Résumé |
Introduction |
Les évaluations clinique, échographique, et cytopathologique permettent de classer les nodules thyroïdiens selon un risque de malignité. Parmi l'ensemble de ces nodules, seuls 1/3 sont en réalité malins, entrainant par conséquence la réalisation de nombreuses chirurgies inutiles. Un premier travail réalisé en 2021 sur une cohorte rétrospective, multicentrique de 1024 patients a permis de mettre au point un outil diagnostique basé sur une régression logistique. Avec une performance de prédiction de 80 % (sensibilité: 57 %; spécificité: 90 %), les performances du score construit étaient satisfaisantes malgré un déséquilibre entre sensibilité et spécificité. Dans ce contexte, le choix d'un classifieur supervisé minimisant le risque d'erreurs de classification et égalisant la sensibilité et la spécificité présente un réel enjeu pour l'aide au diagnostic médical des nodules thyroïdiens. L'objectif de ce travail est de comparer différentes méthodes d'apprentissages supervisées usuelles et une nouvelle méthode basée sur un classifieur minimax bayésien afin de répondre à cette problématique.
Méthodes |
A partir de cette cohorte, scindée en une cohorte d'apprentissage (n=772) et une de validation (N=252), deux algorithmes d'apprentissages supervisés (régression logistique pondérée et Boosting de Gradient) ont été comparés en matière de performances diagnostiques (accuracy, sensibilité, spécificité) avec une nouvelle méthode de classification minimax bayésienne nécessitant préalablement une étape de clustering de type Kmeans++, DBSCAN ou random-forest. Par ailleurs, trois méthodes d'encodage de variables de types ordinal, target et one hot encoding ont aussi été évaluées. Toutes les analyses ont été réalisées avec le logiciel Python.
Résultats |
Parmi les 1024 patients, 77 % étaient des femmes et 53 % étaient âgés de moins de 55 ans. Les nodules étaient majoritairement fermes à la palpation (91 %) et 3 % survenaient dans un contexte d'hyperthyroïdie. Sur le plan échographique, ils étaient majoritairement classés TI-RADS 4A (38 %), solides (75 %) et étaient principalement classés Bethesda IV en cytologie (56 %). Parmi les trois méthodes d'encodage testées, la target encoding s'est montrée la plus performante quelle que soit la méthode d'apprentissage utilisée. Avec une accuracy de 79,3 % (sensibilité: 79,2 %; spécificité: 79,4 %), la méthode du minimax bayésienne (KMeans++) a permis d'obtenir quasiment la même performance diagnostique que la régression logistique pondérée (accuray: 81 %; sensibilité: 73,2 %; spécificité: 84,7 %) ou que l'algorithme du Boosting de Gradient (accuray: 79,7 %; sensibilité: 77,2 %; spécificité: 80,5 %) mais avec un meilleur équilibre entre sensibilité et spécificité.
Conclusion |
Ce travail a mis en évidence l'intérêt de l'encodage des variables sur les résultats mais aussi l'impact du choix du classifieur supervisé sur le risque d'erreur de classification et sur le couple sensibilité-spécificité. Les méthodes de régression logistique pondérée et du Boosting de Gradient ont permis d'obtenir des modèles simples et interprétables alors que la méthode minimax bayésienne est plus complexe à paramétrer mais à l'avantage de présenter des résultats beaucoup plus égalisateurs sur le plan de la sensibilité et de la spécificité. Une analyse à l'aide d'une méthode par réseaux de neurones est actuellement en cours et permettra d’évaluer le taux erreur de classification de celle-ci comparativement aux 3 autres méthodes.
Mots clés |
Apprentissage supervisé , Performances diagnostique , Encodage variables , Aide au diagnostic médical , Thyroïde
Déclaration de liens d'intérêts |
Les auteurs n'ont pas précisé leurs éventuels liens d'intérêt.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S2
Article 101628- mai 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
