S'abonner

Performance diagnostique des Large Language Models en rhumatologie : étude comparative de ChatGPT-4, Gemini, Copilot et Claude - 02/12/25

Doi : 10.1016/j.rhum.2025.10.333 
Y.L.T. Bayala , W.J.S. Zabsonré Tiendrebeogo, D.D. Ouedraogo, F. Kaboré, C. Sougué, A.R. Yameogo, M.W. Nacanabo, I. Ayouba Tinni, A. Ouedraogo, Y.E. Zongo
 Rhumatologie, centre hospitalier universitaire de Bogodogo, Ouagadougou, Burkina Faso 

Auteur correspondant.

Résumé

Introduction

Le diagnostic médical repose traditionnellement sur la clinique, l’imagerie et les examens biologiques, dont les limites en termes de précision ont favorisé le développement d’outils d’aide au diagnostic basés sur l’intelligence artificielle [1] . Les outils d’intelligence artificielle, en particulier les grands modèles de langage (LLMs), ont transformé la pratique médicale [2] . Toutefois, leurs performances diagnostiques demeurent encore peu explorées dans le contexte rhumatologique. L’objectif de cette étude était d’évaluer la précision diagnostique de ChatGPT-4, Gemini, Copilot et Claude en rhumatologie avec des données cliniques et paracliniques des patients réels.

Patients et méthodes

Il s’agit d’une étude analytique transversale avec collecte rétrospective, menée au sein du service de rhumatologie du Centre Hospitalier Universitaire de Bogodogo au Burkina Faso, du 1er janvier au 30 juin 2024. Les données cliniques et paracliniques standardisées des patients ont été soumises aux quatre modèles d’IA. Les diagnostics proposés par les IA ont été comparés aux diagnostics de référence établis par un panel de rhumatologues seniors. La qualité des diagnostics différentiels a été faite à l’aide du score ordinal de Bond et al. Les paramètres métriques ont été calculés pour chaque LLMs. Les analyses univariée et multivariée ont été menées. Le seuil de significativité statistique a été fixé à p < 0,05.

Résultats

Cent trois patients ont été inclus, les affections infectieuses représentaient 47,57 % des cas ( n = 49). L’exactitude diagnostique globale de la clinique combinée à la paraclinique était de 86,41 % pour ChatGPT 4 ( n = 89), 71,84 % pour Gemini ( n = 74). Copilot avait retrouvé exactement le diagnostic de 78 patients (75,73 %), et Claude pour 88 patients (85,44 %) ( Fig. 1 ). Le diagnostic du rhumatologue était inclus avec un score de 5 de Bound et al. dans les diagnostics différentiels de ChatGPT 4 dans 75,72 % des cas ( n = 78), Gemini dans 57,28 % ( n = 59), Copilot dans 55,33 % ( n = 57) et Claude AI dans 75,72 % des cas ( n = 78) ( Fig. 2 ). La concordance inter-LLMs selon le coefficient kappa de Cohen était compris entre 0,43 et 0,59. ChatGPT-4 et Claude ont montré une sensibilité élevée de plus de 90 % pour la majorité des affections, mais une performance plus faible pour les pathologies néoplasiques avec une sensibilité inférieur à 67 % et un AUC < 0,40. ( Fig. 3 ). L’analyse multivariée a montré que les pathologies tumorales étaient significativement associées à une réduction du taux de diagnostic correct par ChatGPT-4 (OR = 0,08 ; IC [0,01 ; 0,45] ; p = 0,004) et Copilot (OR = 0,09 ; IC [0,01 ; 0,54] ; p = 0,007). À l’inverse, les patients de moins de 50 ans avaient une probabilité significativement plus élevée d’obtenir un diagnostic correct avec Copilot (OR = 3,36 ; IC [1,16 ; 9,71] ; p = 0,025).

Conclusion

Les LLMs, en particulier ChatGPT-4 et Claude AI, présentent des performances diagnostiques élevées en rhumatologie. Les pathologies tumorales étaient moins bien identifiées par ChatGPT-4 et Copilot, réduisant leur performance dans ce domaine. En revanche, les patients de moins de 50 ans avaient une meilleure probabilité d’obtenir un diagnostic correct avec Copilot.

Le texte complet de cet article est disponible en PDF.

Plan


© 2025  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 92 - N° S1

P. A25-A26 - décembre 2025 Retour au numéro
Article précédent Article précédent
  • La sexualité féminine chez les rhumatismes inflammatoires chroniques : étude qualitative
  • A. Raja, S. Rachidi, H. Bighouab, M. Ouadaa, A.M. S, I. Ghozlani, M. Erraoui
| Article suivant Article suivant
  • Quel est l’impact environnemental de la recherche clinique en France ? Analyse du cycle de vie de l’essai clinique STAR
  • A. Ruyssen-Witrand, M. Masson, S. Galandrin, C. Daguzan, L. Caturla, D. Thuillez, Y. Degboe, A. Constantin

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.