Performance diagnostique des Large Language Models en rhumatologie : étude comparative de ChatGPT-4, Gemini, Copilot et Claude - 02/12/25
, W.J.S. Zabsonré Tiendrebeogo, D.D. Ouedraogo, F. Kaboré, C. Sougué, A.R. Yameogo, M.W. Nacanabo, I. Ayouba Tinni, A. Ouedraogo, Y.E. ZongoRésumé |
Introduction |
Le diagnostic médical repose traditionnellement sur la clinique, l’imagerie et les examens biologiques, dont les limites en termes de précision ont favorisé le développement d’outils d’aide au diagnostic basés sur l’intelligence artificielle [1] . Les outils d’intelligence artificielle, en particulier les grands modèles de langage (LLMs), ont transformé la pratique médicale [2] . Toutefois, leurs performances diagnostiques demeurent encore peu explorées dans le contexte rhumatologique. L’objectif de cette étude était d’évaluer la précision diagnostique de ChatGPT-4, Gemini, Copilot et Claude en rhumatologie avec des données cliniques et paracliniques des patients réels.
Patients et méthodes |
Il s’agit d’une étude analytique transversale avec collecte rétrospective, menée au sein du service de rhumatologie du Centre Hospitalier Universitaire de Bogodogo au Burkina Faso, du 1er janvier au 30 juin 2024. Les données cliniques et paracliniques standardisées des patients ont été soumises aux quatre modèles d’IA. Les diagnostics proposés par les IA ont été comparés aux diagnostics de référence établis par un panel de rhumatologues seniors. La qualité des diagnostics différentiels a été faite à l’aide du score ordinal de Bond et al. Les paramètres métriques ont été calculés pour chaque LLMs. Les analyses univariée et multivariée ont été menées. Le seuil de significativité statistique a été fixé à p < 0,05.
Résultats |
Cent trois patients ont été inclus, les affections infectieuses représentaient 47,57 % des cas ( n = 49). L’exactitude diagnostique globale de la clinique combinée à la paraclinique était de 86,41 % pour ChatGPT 4 ( n = 89), 71,84 % pour Gemini ( n = 74). Copilot avait retrouvé exactement le diagnostic de 78 patients (75,73 %), et Claude pour 88 patients (85,44 %) ( Fig. 1 ). Le diagnostic du rhumatologue était inclus avec un score de 5 de Bound et al. dans les diagnostics différentiels de ChatGPT 4 dans 75,72 % des cas ( n = 78), Gemini dans 57,28 % ( n = 59), Copilot dans 55,33 % ( n = 57) et Claude AI dans 75,72 % des cas ( n = 78) ( Fig. 2 ). La concordance inter-LLMs selon le coefficient kappa de Cohen était compris entre 0,43 et 0,59. ChatGPT-4 et Claude ont montré une sensibilité élevée de plus de 90 % pour la majorité des affections, mais une performance plus faible pour les pathologies néoplasiques avec une sensibilité inférieur à 67 % et un AUC < 0,40. ( Fig. 3 ). L’analyse multivariée a montré que les pathologies tumorales étaient significativement associées à une réduction du taux de diagnostic correct par ChatGPT-4 (OR = 0,08 ; IC [0,01 ; 0,45] ; p = 0,004) et Copilot (OR = 0,09 ; IC [0,01 ; 0,54] ; p = 0,007). À l’inverse, les patients de moins de 50 ans avaient une probabilité significativement plus élevée d’obtenir un diagnostic correct avec Copilot (OR = 3,36 ; IC [1,16 ; 9,71] ; p = 0,025).
Conclusion |
Les LLMs, en particulier ChatGPT-4 et Claude AI, présentent des performances diagnostiques élevées en rhumatologie. Les pathologies tumorales étaient moins bien identifiées par ChatGPT-4 et Copilot, réduisant leur performance dans ce domaine. En revanche, les patients de moins de 50 ans avaient une meilleure probabilité d’obtenir un diagnostic correct avec Copilot.
Le texte complet de cet article est disponible en PDF.Plan
Vol 92 - N° S1
P. A25-A26 - décembre 2025 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
