S'abonner

Performance of Generative Large Language Models on Ophthalmology Board–Style Questions - 22/09/23

Doi : 10.1016/j.ajo.2023.05.024 
Louis Z. Cai a, 1, , Abdulla Shaheen a, 1, Andrew Jin b, Riya Fukui c, Jonathan S. Yi a, Nicolas Yannuzzi a, Chrisfouad Alabiad a
a From the Bascom Palmer Eye Institute, Miami, Florida, USA (L.Z.C., A.S., J.S.Y., N.Y., C.A.) 
b Yale Eye Center, New Haven, Connecticut, USA (A.J.) 
c Houston Rehabilitation Group, Houston, Texas, USA (R.F.) 

Inquiries to Louis Z. Cai, Bascom Palmer Eye Institute, Retina and Vitreous Diseases, 900 NW 17th St, Miami, FL.Bascom Palmer Eye InstituteRetina and Vitreous Diseases900 NW 17th StMiamiFL

Résumé

PURPOSE

To investigate the ability of generative artificial intelligence models to answer ophthalmology board–style questions.

DESIGN

Experimental study.

METHODS

This study evaluated 3 large language models (LLMs) with chat interfaces, Bing Chat (Microsoft) and ChatGPT 3.5 and 4.0 (OpenAI), using 250 questions from the Basic Science and Clinical Science Self-Assessment Program. Although ChatGPT is trained on information last updated in 2021, Bing Chat incorporates a more recently indexed internet search to generate its answers. Performance was compared with human respondents. Questions were categorized by complexity and patient care phase, and instances of information fabrication or nonlogical reasoning were documented.

MAIN OUTCOME MEASURES

Primary outcome was response accuracy. Secondary outcomes were performance in question subcategories and hallucination frequency.

RESULTS

Human respondents had an average accuracy of 72.2%. ChatGPT-3.5 scored the lowest (58.8%), whereas ChatGPT-4.0 (71.6%) and Bing Chat (71.2%) performed comparably. ChatGPT-4.0 excelled in workup-type questions (odds ratio [OR], 3.89, 95% CI, 1.19-14.73, P = .03) compared with diagnostic questions, but struggled with image interpretation (OR, 0.14, 95% CI, 0.05-0.33, P < .01) when compared with single-step reasoning questions. Against single-step questions, Bing Chat also faced difficulties with image interpretation (OR, 0.18, 95% CI, 0.08-0.44, P < .01) and multi-step reasoning (OR, 0.30, 95% CI, 0.11-0.84, P = .02). ChatGPT-3.5 had the highest rate of hallucinations and nonlogical reasoning (42.4%), followed by ChatGPT-4.0 (18.0%) and Bing Chat (25.6%).

CONCLUSIONS

LLMs (particularly ChatGPT-4.0 and Bing Chat) can perform similarly with human respondents answering questions from the Basic Science and Clinical Science Self-Assessment Program. The frequency of hallucinations and nonlogical reasoning suggests room for improvement in the performance of conversational agents in the medical domain.

Le texte complet de cet article est disponible en PDF.

Plan


 Supplemental Material available at AJO.com.


© 2023  Elsevier Inc. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 254

P. 141-149 - octobre 2023 Retour au numéro
Article précédent Article précédent
  • Motion-Tracking Brillouin Microscopy Evaluation of Normal, Keratoconic, and Post–Laser Vision Correction Corneas
  • Hongyuan Zhang, Lara Asroui, Imane Tarib, William J. Dupps, Giuliano Scarcelli, J. Bradley Randleman
| Article suivant Article suivant
  • Natural History of Optic Disc With Physiologic Large Cup: Incidence, Predictors of Glaucoma Conversion After Minimum 10-Year Follow-up
  • Sooyeon Choe, Young Kook Kim, Ki Ho Park, Hyuk Jin Choi, Jin Wook Jeoung

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.