Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models - 14/03/25
Comparaison de ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et des ophtalmologues dans la gestion de l’uvéite et de l’inflammation oculaire : une étude comparative sur de grands modèles linguistiques
Summary |
Purpose |
The aim of this study was to compare the latest large language models (LLMs) ChatGPT-4o, Google Gemini 1.5 Pro and Microsoft Copilot Pro developed by three different companies, with each other and with a group of ophthalmologists, to reveal the strengths and weaknesses of LLMs against each other and against ophthalmologists in the field of uveitis and ocular inflammation.
Methods |
Using a personal OphthoQuestions (www.ophthoquestions.com/) account, a total of 100 questions from 201 questions on uveitis and ocular inflammation out of a total of 4551 questions on OphthoQuestions, including questions involving multimodal imaging, were included in the study using the randomization feature of the website. In November 2024, ChatGPT-4o, Microsoft Copilot Pro, and Google Gemini 1.5 Pro were asked the same 100 questions: 80 multiple-choice and 20 open-ended questions. Each question was categorized as either true or false. A statistical comparison of the accuracy rates was performed.
Results |
Among the 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and the human group (ophthalmologists) answered 80 (80.00%), 81 (81.00%), 80 (80.00%) and 72 (72.00%) questions, respectively, correctly. In the statistical comparisons between the groups for multiple-choice questions, no significant difference was found between the correct and incorrect response rates of the three LLMs and the human group (P=0.207, Cochran's Q test). In the statistical comparisons of responses to open-ended questions, there was no significant difference between the correct and incorrect response rates of the three LLMs and the human group (P=0.392, Cochran's Q test).
Conclusion |
Although ChatGPT-4o, Google Gemini 1.5 Pro , and Microsoft Copilot Pro answered higher percentages of questions correctly than the human group, the LLMs were not statistically superior to each other or to the human group in the management of uveitis and ocular inflammation.
Le texte complet de cet article est disponible en PDF.Résumé |
Objectif |
L’objectif de cette étude était de comparer les derniers grands modèles de langage (LLM) ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro développés par trois sociétés différentes, entre eux et avec un groupe d’ophtalmologistes, afin de révéler les forces et les faiblesses des LLM les uns par rapport aux autres et par rapport aux ophtalmologistes dans le domaine de l’uvéite et de l’inflammation oculaire.
Méthodes |
Par l’usage d’un compte personnel OphthoQuestions (www.ophthoquestions.com/), un total de 100 questions parmi 201 questions sur l’uvéite et l’inflammation oculaire sur un total de 4551 questions sur OphthoQuestions, y compris les questions impliquant l’imagerie multimodale, ont été incluses dans l’étude en utilisant la fonction de randomisation du site Web. En novembre 2024, les mêmes 100 questions ont été posées à ChatGPT-4o, Microsoft Copilot Pro et Google Gemini 1.5 Pro : 80 questions à choix multiples et 20 questions ouvertes. Chaque question était classée comme vraie ou fausse. Une comparaison statistique des taux de précision a été effectuée.
Résultats |
Parmi les 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et le groupe humain (ophtalmologues) ont répondu correctement à 80 (80,00 %), 81 (81,00 %), 80 (80,00 %) et 72 (72,00 %) d’entre elles, respectivement. Dans les comparaisons statistiques entre les groupes pour les questions à choix multiples, aucune différence significative n’a été trouvée entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p=0,207, test Q de Cochran). Dans les comparaisons statistiques des réponses aux questions ouvertes, il n’y avait pas de différence significative entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p=0,392, test Q de Cochran).
Conclusion |
Bien que ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro aient répondu correctement à un pourcentage plus élevé de questions que le groupe humain, les LLM n’étaient pas statistiquement supérieurs les uns aux autres ou au groupe humain dans la gestion de l’uvéite et de l’inflammation oculaire.
Le texte complet de cet article est disponible en PDF.Keywords : ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, LLMs, Uveitis, Ocular inflammation
Mots clés : ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, LLMs, Uvéite, Inflammation oculaire
Plan
Vol 48 - N° 4
Article 104468- avril 2025 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?

