Chatbots vs andrologists: Testing 25 clinical cases - 03/05/24

Doi : 10.1016/j.fjurol.2024.102636

Ophélie Perrot ^a,^⁎ , Aurelie Schirmann ^a, Adrien Vidart ^a, Cyrille Guillot-Tantay ^a, Vincent Izard ^a, Thierry Lebret ^a, Bernard Boillot ^a, Benoit Mesnard ^a, Cedric Lebacle ^b, François-Xavier Madec ^a
^a Foch Hospital, Urology department, Suresnes, France
^b Kremlin-Bicetre Hospital, urology department, Kremlin-Bicetre, France

^⁎Corresponding author. Foch Hospital, Urology department, Suresnes, France.Foch Hospital, Urology departmentSuresnesFrance

Abstract

Objective

AI-derived language models are booming, and their place in medicine is undefined. The aim of our study is to compare responses to andrology clinical cases, between chatbots and andrologists, to assess the reliability of these technologies.

Material and method

We analyzed the responses of 32 experts, 18 residents and three chatbots (ChatGPT v3.5, v4 and Bard) to 25 andrology clinical cases. Responses were assessed on a Likert scale ranging from 0 to 2 for each question (0-false response or no response; 1-partially correct response, 2- correct response), on the basis of the latest national or, in the absence of such, international recommendations. We compared the averages obtained for all cases by the different groups.

Results

Experts obtained a higher mean score (m=11/12.4 σ=1.4) than ChatGPT v4 (m=10.7/12.4 σ=2.2, p=0.6475), ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.0062) and Bard (m=7.2/12.4 σ=3.3, p<0.0001). Residents obtained a mean score (m=9.4/12.4 σ=1.7) higher than Bard (m=7.2/12.4 σ=3.3, p=0.0053) but lower than ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.8393) and v4 (m=10.7/12.4 σ=2.2, p=0.0183) and experts (m=11.0/12.4 σ=1.4,p=0.0009). ChatGPT v4 performance (m=10.7 σ=2.2) was better than ChatGPT v3.5 (m=9.5, σ=2.1, p=0.0476) and Bard performance (m=7.2 σ=3.3, p<0.0001).

Conclusion

The use of chatbots in medicine could be relevant. More studies are needed to integrate them into clinical practice.

Level of evidence

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

La place des robots conversationnels en médecine n’est pas définie. L’objectif de l’étude est de comparer les réponses à des cas cliniques d’andrologie, entre des chatbots et des andrologues, afin d’évaluer la fiabilité de ces outils.

Matériels et méthodes

Nous avons analysé les réponses de 32 experts, 18 internes et trois chatbots (ChatGPT v3.5, v4 et Bard) à 25 cas cliniques d’andrologie. Les réponses ont été évaluées selon une échelle de Likert allant de 0 à 2 (0-réponse fausse ou absente; 1-réponse partiellement correcte, 2- réponse correcte) selon les dernières recommandations nationales ou, en cas d’absence, internationales. Nous avons comparé les moyennes obtenues pour l’ensemble des cas par les différents groupes.

Résultats

Les experts ont obtenu un score moyen (m=11/12,4, σ=1,4) plus élevé que ChatGPT v4 (m=10,7/12,4, σ=2,2, p=0,6475), ChatGPT v3.5 (m=9,5/12,4 σ=2,1, p=0,0062) et Bard (m=7,2/12,4, σ=3,3, p<0,0001). Le score moyen des internes (m=9,4/12,4, σ=1,7) était plus élevé que Bard (m=7,2/12,4 σ=3,3, p=0,0053) mais plus faible que ChatGPT v3.5 (m=9,5/12,4, σ=2,1, p=0,8393), v4 (m=10,7/12,4, σ=2,2, p=0,0183) et que les experts (m=11,0/12,4, σ=1.4, p=0,0009). La performance de ChatGPT v4 (m=10.7, σ=2.2) était meilleure que la performance de ChatGPT v3.5 (m=9,5, σ=2,1, p=0,0476) et Bard (m=7,2 σ=3,3, p<0,0001).

Conclusion

L’utilisation des chatbots en médecine pourrait être pertinente. D’autres études sont nécessaires avant de les intégrer dans la pratique clinique.

Niveau de preuve

Le texte complet de cet article est disponible en PDF.

Keywords : Artificial intelligence, Andrology, Clinical reasoning, Natural language processing

Plan

Introduction

Materials and methods

Disclosure of interest

Export

Vol 34 - N° 5

Article 102636- juin 2024 Retour au numéro

Article précédent

Salvage high-intensity focused ultrasound (S-HIFU) for recurrence after primary radiotherapy of prostate cancer
Thibaut Long Depaquit, Jennifer Campagna, Cyrille Bastide, Michael Baboudjian, Renaud Corral, Alessandro Uleri, Harry Toledano

| Article suivant

Vasectomy: An increasingly common procedure in France
Eric Huyghe, Quentin Ducrot, Nadège Costa

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Chatbots vs andrologists: Testing 25 clinical cases - 03/05/24

Abstract

Objective

Material and method

Results

Conclusion

Level of evidence

Résumé

Objectif

Matériels et méthodes

Résultats

Conclusion

Niveau de preuve

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL