Evaluating AI chatbots in enuresis nocturna information: A comparative analysis of readability, reliability and quality - 18/12/25

Doi : 10.1016/j.fjurol.2025.103062

Kemal Gumus ⁎ , Ahmet Burak Yilmaz, Ali Furkan Cinbek, Haci Bektas Ozdemir, Kerem Gencer Kutman
Department of Urology, Sincan Training and Research Hospital, Ankara, Turkey

^⁎Corresponding author.

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Thursday 18 December 2025

Abstract

Purpose

Nocturnal enuresis, defined as involuntary urination during sleep in children aged five years and older, is a prevalent condition affecting millions of children worldwide with significant psychosocial implications. While artificial intelligence-powered chatbots have rapidly emerged as accessible health guidance tools, the clarity, consistency, and reliability of their information remain uncertain.

Methods

This study systematically compared the quality, readability, and clinical reliability of responses from three leading large language models (OpenAI GPT-4o, Google Gemini 2.5 Pro, and DeepSeek R1) to the 40 most frequently asked questions about childhood nocturnal enuresis. Designed as a cross-sectional observational study, questions identified through decade-long search engine data analysis were organized into four thematic categories and posed in Turkish to the chatbots. As the study exclusively analyzed publicly available AI outputs without involving human participants, institutional review board approval was not required. Responses were evaluated using the Flesch Reading Ease Score (FRES) and Flesch-Kincaid Grade Level (FKGL) for readability; Ensuring Quality Information for Patients (EQIP) and modified DISCERN (mDISCERN) tools for quality, applying a double-blind methodology. Group comparisons were conducted using ANOVA and post-hoc tests.

Results

All chatbots generated texts in the “difficult to read” range (FRES: 33.6–40.9), requiring university-level comprehension (FKGL: 20.3–21.9), thereby substantially limiting accessibility for the target parent audience. DeepSeek demonstrated significantly superior performance on EQIP criteria (70.4 ± 9.2), outperforming both Gemini (57.8 ± 6.3) and GPT-4o (54.7 ± 4.8) ( P = 0.003). However, mDISCERN scores remained low across all models (2.10–2.30, P = 0.183).

Conclusion

Current AI chatbots offer only limited potential as reliable and accessible health information sources on nocturnal enuresis and are not yet adequate for clinical use. Future developments must prioritize plain language implementation, structured information delivery, and alignment with current pediatric urology guidelines to transform digital health tools into genuinely beneficial and clinically reliable resources for families.

Level of evidence

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

L’énurésie nocturne, définie comme une miction involontaire pendant le sommeil chez les enfants de cinq ans et plus, est une affection fréquente touchant des millions d’enfants dans le monde et entraînant d’importantes répercussions psychosociales. Bien que les chatbots basés sur l’intelligence artificielle deviennent rapidement des outils accessibles pour obtenir des informations de santé, la fiabilité et la clarté de leurs contenus restent incertaines.

Méthodes

Cette étude a comparé systématiquement la qualité, la lisibilité et la fiabilité clinique des réponses de trois grands modèles linguistiques (OpenAI GPT-4o, Google Gemini 2.5 Pro et DeepSeek R1) aux 40 questions les plus fréquemment posées sur l’énurésie nocturne infantile. Les questions, identifiées à partir d’une analyse sur dix ans des données de moteurs de recherche, ont été réparties en quatre catégories thématiques et posées en turc aux chatbots. Comme l’étude analysait exclusivement des résultats d’IA accessibles au public sans impliquer de participants humains, aucune approbation éthique n’était requise. La lisibilité a été évaluée à l’aide du score Flesch Reading Ease (FRES) et du niveau scolaire Flesch-Kincaid (FKGL). La qualité a été mesurée au moyen des outils EQIP et modified DISCERN (mDISCERN) selon une méthodologie en double aveugle. Les comparaisons de groupe ont été réalisées avec une Anova et des tests post-hoc.

Résultats

Tous les chatbots ont produit des textes difficiles à lire (FRES : 33,6–40,9) et nécessitant un niveau de compréhension universitaire (FKGL : 20,3–21,9), limitant ainsi considérablement leur accessibilité pour les parents. DeepSeek a obtenu les scores EQIP les plus élevés (70,4 ± 9,2), surpassant à la fois Gemini (57,8 ± 6,3) et GPT-4o (54,7 ± 4,8) ( p = 0,003). Toutefois, les scores mDISCERN sont restés faibles pour tous les modèles (2,10–2,30 ; p = 0,183).

Conclusion

Les chatbots actuels offrent un potentiel limité en tant que sources d’information fiables et accessibles pour les familles concernées par l’énurésie nocturne et ne sont pas encore adaptés à une utilisation clinique. Les développements futurs devraient privilégier un langage plus clair, une présentation mieux structurée des informations et une plus grande conformité avec les recommandations de l’urologie pédiatrique.