Intravitreal anti-VEGF therapy: Comparative evaluation of appropriateness and readability of large language model chatbots’ responses to frequently asked patient questions - 16/06/26

Thérapie anti-VEGF intravitréenne : évaluation comparative de la pertinence et de la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage aux questions fréquemment posées par les patients

Doi : 10.1016/j.jfo.2026.104923

T. Sezer ^a,⁎ , B. Meydan ^b, G. Toprak ^a

^a Department of Ophthalmology, Faculty of Medicine, Düzce University, Düzce, Turkey

^b Department of Ophthalmology, Düzce Atatürk State Hospital, Düzce, Turkey

^⁎ Corresponding author.

Summary

Purpose

To evaluate the appropriateness and readability of responses generated by large language model (LLM) chatbots to frequently asked patient questions regarding intravitreal anti-vascular endothelial growth factor (anti-VEGF) therapy.

Methods

Forty patient-centered anti-VEGF-related questions were developed by retinal specialists and posed in English to six LLM chatbots (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4, and Manus 1.6 Lite) under identical conditions. Responses were recorded verbatim and anonymized. Two ophthalmologists evaluated clinical appropriateness using a three-point Likert scale. Readability was assessed using five validated indices, and text length and time-based parameters were analyzed.

Results

None of the responses were classified as inappropriate. Gemini 3 demonstrated the highest rate of appropriate responses (97.5%), followed by ChatGPT-5.2 (90%), ChatGPT-4.0 (87.5%), and Manus 1.6 Lite (87.5%), while Copilot and Grok 4 showed lower appropriateness due to a higher proportion of partially appropriate responses ( P = 0.033). Significant differences were observed across all readability indices ( P < 0.001). Gemini 3 achieved the highest Flesch Reading Ease scores, indicating better patient accessibility, whereas Grok 4 produced more complex texts requiring higher educational levels. Manus 1.6 Lite generated the longest and most information-dense responses, while Gemini 3 demonstrated a more balanced profile between informational depth and readability.

Conclusions

While LLM chatbots generally provide clinically appropriate information on intravitreal anti-VEGF therapy, substantial model-dependent differences exist in readability and communication quality. LLMs should therefore be used as physician-supervised tools to support patient education rather than as standalone information sources.

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

Évaluer la pertinence et la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage (GML) aux questions fréquemment posées par les patients concernant la thérapie anti-facteur de croissance de l’endothélium vasculaire (anti-VEGF) intravitréenne.

Méthodes

Quarante questions centrées sur les patients et liées au traitement anti-VEGF ont été élaborées par des spécialistes de la rétine et posées en anglais, dans des conditions identiques, à six agents conversationnels basés sur des GML (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4 et Manus 1.6 Lite). Les réponses ont été enregistrées mot à mot et anonymisées. Deux ophtalmologistes ont évalué la pertinence clinique à l’aide d’une échelle de Likert en trois points. La lisibilité a été analysée à l’aide de cinq indices validés, et les paramètres de longueur du texte et de temps ont également été évalués.

Résultats

Aucune réponse n’a été classée comme inappropriée. Gemini 3 a présenté le taux le plus élevé de réponses appropriées (97,5 %), suivi de ChatGPT-5.2 (90 %), ChatGPT-4.0 (87,5 %) et Manus 1.6 Lite (87,5 %), tandis que Copilot et Grok 4 ont montré des taux de pertinence plus faibles en raison d’une proportion plus élevée de réponses partiellement appropriées ( p = 0,033). Des différences statistiquement significatives ont été observées pour l’ensemble des indices de lisibilité ( p < 0,001). Gemini 3 a obtenu les scores de facilité de lecture de Flesch les plus élevés, indiquant une meilleure accessibilité pour les patients, alors que Grok 4 a produit des textes plus complexes nécessitant un niveau d’éducation plus élevé. Manus 1.6 Lite a généré les réponses les plus longues et les plus denses en informations, tandis que Gemini 3 a présenté un profil plus équilibré entre profondeur informationnelle et lisibilité.

Conclusions

Bien que les agents conversationnels basés sur des grands modèles de langage fournissent généralement des informations cliniquement appropriées sur la thérapie anti-VEGF intravitréenne, des différences substantielles dépendantes du modèle existent en termes de lisibilité et de qualité de la communication. Les GML devraient donc être utilisés comme des outils supervisés par les médecins pour soutenir l’éducation des patients, plutôt que comme des sources d’information autonomes.

Le texte complet de cet article est disponible en PDF.

Mots clés : Grands modèles de langage, Anti-VEGF intravitréen, Éducation des patients, Lisibilité, Ophtalmologie

Keywords : Large language models, İntravitreal anti-VEGF, Patient education, Readability, Ophthalmology

Plan

Introduction

Materials and methods

Declaration of AI and AI-assisted technologies in the writing process

Author contributions

Export

Vol 49 - N° 7

Article 104923- septembre 2026 Retour au numéro

Article précédent

Validation of a questionnaire on repeated eye-rubbing and ocular microtrauma in patients with keratoconus
D. Touboul, V. Budnikova, V. Saunier, N. Thierry, P. Fournié, M. Kret, A. Benard

| Article suivant

Les chirurgies trabéculaires dans la prise en charge du glaucome : une revue de la littérature
A. Aufaure, P. Bastelica, A. Grise-Dulac, A. Rousseau, A. Labbé, C. Baudouin

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Intravitreal anti-VEGF therapy: Comparative evaluation of appropriateness and readability of large language model chatbots’ responses to frequently asked patient questions - 16/06/26

Thérapie anti-VEGF intravitréenne : évaluation comparative de la pertinence et de la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage aux questions fréquemment posées par les patients

Summary

Purpose

Methods

Results

Conclusions

Résumé

Objectif

Méthodes

Résultats

Conclusions

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL