S'abonner

CO10.2 - Comparaison de différentes méthodes de machine learning supervisé pour l'aide au diagnostic médical des nodules thyroïdiens - 20/04/23

Doi : 10.1016/j.respe.2023.101628 
J. Gal 1, , S. Benidir 2, G. D'andréa 1, 2, C. Gilet 2, Y. Chateau 1, L. Le Large 3, L. Ouaret 3, C. Dutreve 3, R. Schiappa 1, A. Bozec 4, T. Pace-Loscos 1, L. Fillatre 2, D. Culié 4, E. Chamorey 1
1 Centre Antoine Lacassagne, Département d’épidémiologie, de biostatistiques et des données de santé, Nice, France 
2 Université Côte d'Azur, Laboratoire d'informatique, signaux et systèmes de Sophia Antipolis, Sophia-Antipolis, France 
3 Institut national des sciences appliquées, Département biosciences, Villeurbanne, France 
4 Institut universitaire de la face et du cou, Centre Antoine Lacassagne, Département de chirurgie cervico-faciale, Nice, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Les évaluations clinique, échographique, et cytopathologique permettent de classer les nodules thyroïdiens selon un risque de malignité. Parmi l'ensemble de ces nodules, seuls 1/3 sont en réalité malins, entrainant par conséquence la réalisation de nombreuses chirurgies inutiles. Un premier travail réalisé en 2021 sur une cohorte rétrospective, multicentrique de 1024 patients a permis de mettre au point un outil diagnostique basé sur une régression logistique. Avec une performance de prédiction de 80 % (sensibilité: 57 %; spécificité: 90 %), les performances du score construit étaient satisfaisantes malgré un déséquilibre entre sensibilité et spécificité. Dans ce contexte, le choix d'un classifieur supervisé minimisant le risque d'erreurs de classification et égalisant la sensibilité et la spécificité présente un réel enjeu pour l'aide au diagnostic médical des nodules thyroïdiens. L'objectif de ce travail est de comparer différentes méthodes d'apprentissages supervisées usuelles et une nouvelle méthode basée sur un classifieur minimax bayésien afin de répondre à cette problématique.

Méthodes

A partir de cette cohorte, scindée en une cohorte d'apprentissage (n=772) et une de validation (N=252), deux algorithmes d'apprentissages supervisés (régression logistique pondérée et Boosting de Gradient) ont été comparés en matière de performances diagnostiques (accuracy, sensibilité, spécificité) avec une nouvelle méthode de classification minimax bayésienne nécessitant préalablement une étape de clustering de type Kmeans++, DBSCAN ou random-forest. Par ailleurs, trois méthodes d'encodage de variables de types ordinal, target et one hot encoding ont aussi été évaluées. Toutes les analyses ont été réalisées avec le logiciel Python.

Résultats

Parmi les 1024 patients, 77 % étaient des femmes et 53 % étaient âgés de moins de 55 ans. Les nodules étaient majoritairement fermes à la palpation (91 %) et 3 % survenaient dans un contexte d'hyperthyroïdie. Sur le plan échographique, ils étaient majoritairement classés TI-RADS 4A (38 %), solides (75 %) et étaient principalement classés Bethesda IV en cytologie (56 %). Parmi les trois méthodes d'encodage testées, la target encoding s'est montrée la plus performante quelle que soit la méthode d'apprentissage utilisée. Avec une accuracy de 79,3 % (sensibilité: 79,2 %; spécificité: 79,4 %), la méthode du minimax bayésienne (KMeans++) a permis d'obtenir quasiment la même performance diagnostique que la régression logistique pondérée (accuray: 81 %; sensibilité: 73,2 %; spécificité: 84,7 %) ou que l'algorithme du Boosting de Gradient (accuray: 79,7 %; sensibilité: 77,2 %; spécificité: 80,5 %) mais avec un meilleur équilibre entre sensibilité et spécificité.

Conclusion

Ce travail a mis en évidence l'intérêt de l'encodage des variables sur les résultats mais aussi l'impact du choix du classifieur supervisé sur le risque d'erreur de classification et sur le couple sensibilité-spécificité. Les méthodes de régression logistique pondérée et du Boosting de Gradient ont permis d'obtenir des modèles simples et interprétables alors que la méthode minimax bayésienne est plus complexe à paramétrer mais à l'avantage de présenter des résultats beaucoup plus égalisateurs sur le plan de la sensibilité et de la spécificité. Une analyse à l'aide d'une méthode par réseaux de neurones est actuellement en cours et permettra d’évaluer le taux erreur de classification de celle-ci comparativement aux 3 autres méthodes.

Mots clés

Apprentissage supervisé , Performances diagnostique , Encodage variables , Aide au diagnostic médical , Thyroïde

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêt.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101628- mai 2023 Retour au numéro
Article précédent Article précédent
  • CO10.1 - PAPY THEO - Aide à la récupération de données pour les essais cliniques
  • C. Devic, R. Schiappa, V. Ferrari, Y. Chateau, E. Chamorey
| Article suivant Article suivant
  • CO10.3 - Personalizing renal replacement therapy initiation in the intensive care unit: a statistical reinforcement learning-based dynamic strategy with external validation on the AKIKI randomized controlled trials
  • F. Grolleau, F. Petit, S. Gaudry, E. Diard, J. Quenot, D. Dreyfuss, T. Viet-Thi, R. Porcher

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.