S'abonner

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models - 14/03/25

Comparaison de ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et des ophtalmologues dans la gestion de l’uvéite et de l’inflammation oculaire : une étude comparative sur de grands modèles linguistiques

Doi : 10.1016/j.jfo.2025.104468 
S. Demir
 Department of Ophthalmology, Adana 5 Ocak State Hospital, Adana, Turkey 

Summary

Purpose

The aim of this study was to compare the latest large language models (LLMs) ChatGPT-4o, Google Gemini 1.5 Pro and Microsoft Copilot Pro developed by three different companies, with each other and with a group of ophthalmologists, to reveal the strengths and weaknesses of LLMs against each other and against ophthalmologists in the field of uveitis and ocular inflammation.

Methods

Using a personal OphthoQuestions (www.ophthoquestions.com/) account, a total of 100 questions from 201 questions on uveitis and ocular inflammation out of a total of 4551 questions on OphthoQuestions, including questions involving multimodal imaging, were included in the study using the randomization feature of the website. In November 2024, ChatGPT-4o, Microsoft Copilot Pro, and Google Gemini 1.5 Pro were asked the same 100 questions: 80 multiple-choice and 20 open-ended questions. Each question was categorized as either true or false. A statistical comparison of the accuracy rates was performed.

Results

Among the 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and the human group (ophthalmologists) answered 80 (80.00%), 81 (81.00%), 80 (80.00%) and 72 (72.00%) questions, respectively, correctly. In the statistical comparisons between the groups for multiple-choice questions, no significant difference was found between the correct and incorrect response rates of the three LLMs and the human group (P=0.207, Cochran's Q test). In the statistical comparisons of responses to open-ended questions, there was no significant difference between the correct and incorrect response rates of the three LLMs and the human group (P=0.392, Cochran's Q test).

Conclusion

Although ChatGPT-4o, Google Gemini 1.5 Pro , and Microsoft Copilot Pro answered higher percentages of questions correctly than the human group, the LLMs were not statistically superior to each other or to the human group in the management of uveitis and ocular inflammation.

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

L’objectif de cette étude était de comparer les derniers grands modèles de langage (LLM) ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro développés par trois sociétés différentes, entre eux et avec un groupe d’ophtalmologistes, afin de révéler les forces et les faiblesses des LLM les uns par rapport aux autres et par rapport aux ophtalmologistes dans le domaine de l’uvéite et de l’inflammation oculaire.

Méthodes

Par l’usage d’un compte personnel OphthoQuestions (www.ophthoquestions.com/), un total de 100 questions parmi 201 questions sur l’uvéite et l’inflammation oculaire sur un total de 4551 questions sur OphthoQuestions, y compris les questions impliquant l’imagerie multimodale, ont été incluses dans l’étude en utilisant la fonction de randomisation du site Web. En novembre 2024, les mêmes 100 questions ont été posées à ChatGPT-4o, Microsoft Copilot Pro et Google Gemini 1.5 Pro : 80 questions à choix multiples et 20 questions ouvertes. Chaque question était classée comme vraie ou fausse. Une comparaison statistique des taux de précision a été effectuée.

Résultats

Parmi les 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et le groupe humain (ophtalmologues) ont répondu correctement à 80 (80,00 %), 81 (81,00 %), 80 (80,00 %) et 72 (72,00 %) d’entre elles, respectivement. Dans les comparaisons statistiques entre les groupes pour les questions à choix multiples, aucune différence significative n’a été trouvée entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p=0,207, test Q de Cochran). Dans les comparaisons statistiques des réponses aux questions ouvertes, il n’y avait pas de différence significative entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p=0,392, test Q de Cochran).

Conclusion

Bien que ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro aient répondu correctement à un pourcentage plus élevé de questions que le groupe humain, les LLM n’étaient pas statistiquement supérieurs les uns aux autres ou au groupe humain dans la gestion de l’uvéite et de l’inflammation oculaire.

Le texte complet de cet article est disponible en PDF.

Keywords : ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, LLMs, Uveitis, Ocular inflammation

Mots clés : ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, LLMs, Uvéite, Inflammation oculaire


Plan


© 2025  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 48 - N° 4

Article 104468- avril 2025 Retour au numéro
Article précédent Article précédent
  • Long-term surgical outcomes of pediatric retinal detachment associated with primary congenital glaucoma
  • O. Artunay, M. Ozbek, S. Ozcaliskan
| Article suivant Article suivant
  • Approche diagnostique et parcours thérapeutique de la dégénérescence maculaire liée à l’âge de type atrophique : recommandations de la Fédération France Macula
  • V. Capuano, O. Semoun, A. Combes, C.-J. Mehanna, H. Oubraham, E.H. Souied

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.