Intravitreal anti-VEGF therapy: Comparative evaluation of appropriateness and readability of large language model chatbots’ responses to frequently asked patient questions - 16/06/26
Thérapie anti-VEGF intravitréenne : évaluation comparative de la pertinence et de la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage aux questions fréquemment posées par les patients
Summary |
Purpose |
To evaluate the appropriateness and readability of responses generated by large language model (LLM) chatbots to frequently asked patient questions regarding intravitreal anti-vascular endothelial growth factor (anti-VEGF) therapy.
Methods |
Forty patient-centered anti-VEGF-related questions were developed by retinal specialists and posed in English to six LLM chatbots (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4, and Manus 1.6 Lite) under identical conditions. Responses were recorded verbatim and anonymized. Two ophthalmologists evaluated clinical appropriateness using a three-point Likert scale. Readability was assessed using five validated indices, and text length and time-based parameters were analyzed.
Results |
None of the responses were classified as inappropriate. Gemini 3 demonstrated the highest rate of appropriate responses (97.5%), followed by ChatGPT-5.2 (90%), ChatGPT-4.0 (87.5%), and Manus 1.6 Lite (87.5%), while Copilot and Grok 4 showed lower appropriateness due to a higher proportion of partially appropriate responses ( P = 0.033). Significant differences were observed across all readability indices ( P < 0.001). Gemini 3 achieved the highest Flesch Reading Ease scores, indicating better patient accessibility, whereas Grok 4 produced more complex texts requiring higher educational levels. Manus 1.6 Lite generated the longest and most information-dense responses, while Gemini 3 demonstrated a more balanced profile between informational depth and readability.
Conclusions |
While LLM chatbots generally provide clinically appropriate information on intravitreal anti-VEGF therapy, substantial model-dependent differences exist in readability and communication quality. LLMs should therefore be used as physician-supervised tools to support patient education rather than as standalone information sources.
Le texte complet de cet article est disponible en PDF.Résumé |
Objectif |
Évaluer la pertinence et la lisibilité des réponses générées par des agents conversationnels basés sur des grands modèles de langage (GML) aux questions fréquemment posées par les patients concernant la thérapie anti-facteur de croissance de l’endothélium vasculaire (anti-VEGF) intravitréenne.
Méthodes |
Quarante questions centrées sur les patients et liées au traitement anti-VEGF ont été élaborées par des spécialistes de la rétine et posées en anglais, dans des conditions identiques, à six agents conversationnels basés sur des GML (ChatGPT-4.0, ChatGPT-5.2, Google Gemini 3, Microsoft Copilot, Grok 4 et Manus 1.6 Lite). Les réponses ont été enregistrées mot à mot et anonymisées. Deux ophtalmologistes ont évalué la pertinence clinique à l’aide d’une échelle de Likert en trois points. La lisibilité a été analysée à l’aide de cinq indices validés, et les paramètres de longueur du texte et de temps ont également été évalués.
Résultats |
Aucune réponse n’a été classée comme inappropriée. Gemini 3 a présenté le taux le plus élevé de réponses appropriées (97,5 %), suivi de ChatGPT-5.2 (90 %), ChatGPT-4.0 (87,5 %) et Manus 1.6 Lite (87,5 %), tandis que Copilot et Grok 4 ont montré des taux de pertinence plus faibles en raison d’une proportion plus élevée de réponses partiellement appropriées ( p = 0,033). Des différences statistiquement significatives ont été observées pour l’ensemble des indices de lisibilité ( p < 0,001). Gemini 3 a obtenu les scores de facilité de lecture de Flesch les plus élevés, indiquant une meilleure accessibilité pour les patients, alors que Grok 4 a produit des textes plus complexes nécessitant un niveau d’éducation plus élevé. Manus 1.6 Lite a généré les réponses les plus longues et les plus denses en informations, tandis que Gemini 3 a présenté un profil plus équilibré entre profondeur informationnelle et lisibilité.
Conclusions |
Bien que les agents conversationnels basés sur des grands modèles de langage fournissent généralement des informations cliniquement appropriées sur la thérapie anti-VEGF intravitréenne, des différences substantielles dépendantes du modèle existent en termes de lisibilité et de qualité de la communication. Les GML devraient donc être utilisés comme des outils supervisés par les médecins pour soutenir l’éducation des patients, plutôt que comme des sources d’information autonomes.
Le texte complet de cet article est disponible en PDF.Mots clés : Grands modèles de langage, Anti-VEGF intravitréen, Éducation des patients, Lisibilité, Ophtalmologie
Keywords : Large language models, İntravitreal anti-VEGF, Patient education, Readability, Ophthalmology
Plan
Vol 49 - N° 7
Article 104923- septembre 2026 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?

