S'abonner

Intravitreal anti-VEGF therapy: Comparative evaluation of appropriateness and readability of large language model chatbots’ responses to frequently asked patient questions - 16/06/26

Thérapie anti-VEGF intravitréenne : évaluation comparative de la pertinence et de la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage aux questions fréquemment posées par les patients

Doi : 10.1016/j.jfo.2026.104923 
T. Sezer a, , B. Meydan b, G. Toprak a
a Department of Ophthalmology, Faculty of Medicine, Düzce University, Düzce, Turkey 
b Department of Ophthalmology, Düzce Atatürk State Hospital, Düzce, Turkey 

Corresponding author.

Summary

Purpose

To evaluate the appropriateness and readability of responses generated by large language model (LLM) chatbots to frequently asked patient questions regarding intravitreal anti-vascular endothelial growth factor (anti-VEGF) therapy.

Methods

Forty patient-centered anti-VEGF-related questions were developed by retinal specialists and posed in English to six LLM chatbots (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4, and Manus 1.6 Lite) under identical conditions. Responses were recorded verbatim and anonymized. Two ophthalmologists evaluated clinical appropriateness using a three-point Likert scale. Readability was assessed using five validated indices, and text length and time-based parameters were analyzed.

Results

None of the responses were classified as inappropriate. Gemini 3 demonstrated the highest rate of appropriate responses (97.5%), followed by ChatGPT-5.2 (90%), ChatGPT-4.0 (87.5%), and Manus 1.6 Lite (87.5%), while Copilot and Grok 4 showed lower appropriateness due to a higher proportion of partially appropriate responses ( P = 0.033). Significant differences were observed across all readability indices ( P < 0.001). Gemini 3 achieved the highest Flesch Reading Ease scores, indicating better patient accessibility, whereas Grok 4 produced more complex texts requiring higher educational levels. Manus 1.6 Lite generated the longest and most information-dense responses, while Gemini 3 demonstrated a more balanced profile between informational depth and readability.

Conclusions

While LLM chatbots generally provide clinically appropriate information on intravitreal anti-VEGF therapy, substantial model-dependent differences exist in readability and communication quality. LLMs should therefore be used as physician-supervised tools to support patient education rather than as standalone information sources.

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

Évaluer la pertinence et la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage (GML) aux questions fréquemment posées par les patients concernant la thérapie anti-facteur de croissance de l’endothélium vasculaire (anti-VEGF) intravitréenne.

Méthodes

Quarante questions centrées sur les patients et liées au traitement anti-VEGF ont été élaborées par des spécialistes de la rétine et posées en anglais, dans des conditions identiques, à six agents conversationnels basés sur des GML (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4 et Manus 1.6 Lite). Les réponses ont été enregistrées mot à mot et anonymisées. Deux ophtalmologistes ont évalué la pertinence clinique à l’aide d’une échelle de Likert en trois points. La lisibilité a été analysée à l’aide de cinq indices validés, et les paramètres de longueur du texte et de temps ont également été évalués.

Résultats

Aucune réponse n’a été classée comme inappropriée. Gemini 3 a présenté le taux le plus élevé de réponses appropriées (97,5 %), suivi de ChatGPT-5.2 (90 %), ChatGPT-4.0 (87,5 %) et Manus 1.6 Lite (87,5 %), tandis que Copilot et Grok 4 ont montré des taux de pertinence plus faibles en raison d’une proportion plus élevée de réponses partiellement appropriées ( p = 0,033). Des différences statistiquement significatives ont été observées pour l’ensemble des indices de lisibilité ( p < 0,001). Gemini 3 a obtenu les scores de facilité de lecture de Flesch les plus élevés, indiquant une meilleure accessibilité pour les patients, alors que Grok 4 a produit des textes plus complexes nécessitant un niveau d’éducation plus élevé. Manus 1.6 Lite a généré les réponses les plus longues et les plus denses en informations, tandis que Gemini 3 a présenté un profil plus équilibré entre profondeur informationnelle et lisibilité.

Conclusions

Bien que les agents conversationnels basés sur des grands modèles de langage fournissent généralement des informations cliniquement appropriées sur la thérapie anti-VEGF intravitréenne, des différences substantielles dépendantes du modèle existent en termes de lisibilité et de qualité de la communication. Les GML devraient donc être utilisés comme des outils supervisés par les médecins pour soutenir l’éducation des patients, plutôt que comme des sources d’information autonomes.

Le texte complet de cet article est disponible en PDF.

Mots clés : Grands modèles de langage, Anti-VEGF intravitréen, Éducation des patients, Lisibilité, Ophtalmologie

Keywords : Large language models, İntravitreal anti-VEGF, Patient education, Readability, Ophthalmology


Plan


© 2026  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 49 - N° 7

Article 104923- septembre 2026 Retour au numéro
Article précédent Article précédent
  • Validation of a questionnaire on repeated eye-rubbing and ocular microtrauma in patients with keratoconus
  • D. Touboul, V. Budnikova, V. Saunier, N. Thierry, P. Fournié, M. Kret, A. Benard
| Article suivant Article suivant
  • Les chirurgies trabéculaires dans la prise en charge du glaucome : une revue de la littérature
  • A. Aufaure, P. Bastelica, A. Grise-Dulac, A. Rousseau, A. Labbé, C. Baudouin

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.