S'abonner

Can large language models perform clinical anamnesis? Comparative evaluation of ChatGPT, Claude, and Gemini in diagnostic reasoning through case-based questioning in oral and maxillofacial disorders - 22/11/25

Doi : 10.1016/j.jormas.2025.102644 
Birkan Eyup Yilmaz a, , Furkan Ozbey b, Busra Nur Gokkurt Yilmaz c, Hasan Akpinar d
a Faculty of Dentistry, Department of Oral and Maxillofacial Surgery, Giresun University, Giresun, Türkiye 
b Faculty of Dentistry, Department of Dentomaxillofacial Radiology, Afyonkarahisar Health Sciences University, Afyonkarahisar, Türkiye 
c Giresun Oral and Dental Health Center, Department of Dentomaxillofacial Radiology, Giresun, Türkiye 
d Faculty of Dentistry, Department of Oral and Maxillofacial Surgery, Afyonkarahisar Health Sciences University, Afyonkarahisar, Türkiye 

Corresponding author at: Giresun University, Faculty of Dentistry, Department of Oral and Maxillofacial Surgery, Giresun, Türkiye.Giresun UniversityFaculty of Dentistry, Department of Oral and Maxillofacial SurgeryGiresunTürkiye

Abstract

Introduction

This study aimed to evaluate whether large language models (LLMs) can emulate the clinical anamnesis process and diagnostic reasoning of oral and maxillofacial surgeons.

Materials and methods

Twenty-five real clinical cases from five diagnostic categories maxillary sinus diseases, periapical pathologies, orofacial pain disorders and neuropathic pain syndromes, odontogenic cysts and tumors, and temporomandibular joint disorders were simulated. Three LLMs (ChatGPT 4o, Claude 4, and Gemini 2.5) were each provided only the patient’s chief complaint and instructed to ask up to ten sequential questions to reach a diagnosis. One independent evaluators scored model performances on a 100 point scale, deducting 10 points for each additional question asked. Statistical comparisons were conducted using Kruskal–Wallis and Bonferroni post-hoc tests.

Results

No statistically significant difference was found among the models ( p = 0.431). Gemini achieved the highest mean diagnostic score (43.6 ± 40.71), followed by ChatGPT-4o (37.2 ± 36.8) and Claude (31.6 ± 33.0). Diagnostic accuracy was highest in moderately difficult cases ( p = 0.021) and markedly decreased in difficult ones ( p = 0.016).

Conclusion

LLMs demonstrated the ability to perform structured anamnesis and reach clinically meaningful diagnostic conclusions using limited information. Although no significant difference was observed among the models, Gemini achieved the highest overall mean score. These findings indicate that LLMs hold potential as complementary tools for diagnostic reasoning and as simulation-based educational resources in oral and maxillofacial surgery.

Le texte complet de cet article est disponible en PDF.

Keywords : Large language models, ChatGPT, Claude, Gemini, Anamnesis, Diagnostic reasoning, Oral and maxillofacial surgery, Artificial intelligence


Plan


© 2025  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 127 - N° 2

Article 102644- mars 2026 Retour au numéro
Article précédent Article précédent
  • BUB1 and CCNB2 mediate cell cycle and inflammation, influencing the progression of oral squamous cell carcinoma
  • Wei Han, Sumei Wang, Haoyang Gao, Bowen Du
| Article suivant Article suivant
  • Effect of multidisciplinary ERAS-based nursing model on postoperative recovery in patients undergoing radical resection for oral cancer
  • Xin Lin, Yi Wang, Yue Deng, Yan Mao, Yu Pu, Ying Chen

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.