S'abonner

Chatbots vs andrologists: Testing 25 clinical cases - 03/05/24

Doi : 10.1016/j.fjurol.2024.102636 
Ophélie Perrot a, , Aurelie Schirmann a, Adrien Vidart a, Cyrille Guillot-Tantay a, Vincent Izard a, Thierry Lebret a, Bernard Boillot a, Benoit Mesnard a, Cedric Lebacle b, François-Xavier Madec a
a Foch Hospital, Urology department, Suresnes, France 
b Kremlin-Bicetre Hospital, urology department, Kremlin-Bicetre, France 

Corresponding author. Foch Hospital, Urology department, Suresnes, France.Foch Hospital, Urology departmentSuresnesFrance

Abstract

Objective

AI-derived language models are booming, and their place in medicine is undefined. The aim of our study is to compare responses to andrology clinical cases, between chatbots and andrologists, to assess the reliability of these technologies.

Material and method

We analyzed the responses of 32 experts, 18 residents and three chatbots (ChatGPT v3.5, v4 and Bard) to 25 andrology clinical cases. Responses were assessed on a Likert scale ranging from 0 to 2 for each question (0-false response or no response; 1-partially correct response, 2- correct response), on the basis of the latest national or, in the absence of such, international recommendations. We compared the averages obtained for all cases by the different groups.

Results

Experts obtained a higher mean score (m=11/12.4 σ=1.4) than ChatGPT v4 (m=10.7/12.4 σ=2.2, p=0.6475), ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.0062) and Bard (m=7.2/12.4 σ=3.3, p<0.0001). Residents obtained a mean score (m=9.4/12.4 σ=1.7) higher than Bard (m=7.2/12.4 σ=3.3, p=0.0053) but lower than ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.8393) and v4 (m=10.7/12.4 σ=2.2, p=0.0183) and experts (m=11.0/12.4 σ=1.4,p=0.0009). ChatGPT v4 performance (m=10.7 σ=2.2) was better than ChatGPT v3.5 (m=9.5, σ=2.1, p=0.0476) and Bard performance (m=7.2 σ=3.3, p<0.0001).

Conclusion

The use of chatbots in medicine could be relevant. More studies are needed to integrate them into clinical practice.

Level of evidence

4.

Le texte complet de cet article est disponible en PDF.

Résumé

Objectif

La place des robots conversationnels en médecine n’est pas définie. L’objectif de l’étude est de comparer les réponses à des cas cliniques d’andrologie, entre des chatbots et des andrologues, afin d’évaluer la fiabilité de ces outils.

Matériels et méthodes

Nous avons analysé les réponses de 32 experts, 18 internes et trois chatbots (ChatGPT v3.5, v4 et Bard) à 25 cas cliniques d’andrologie. Les réponses ont été évaluées selon une échelle de Likert allant de 0 à 2 (0-réponse fausse ou absente; 1-réponse partiellement correcte, 2- réponse correcte) selon les dernières recommandations nationales ou, en cas d’absence, internationales. Nous avons comparé les moyennes obtenues pour l’ensemble des cas par les différents groupes.

Résultats

Les experts ont obtenu un score moyen (m=11/12,4, σ=1,4) plus élevé que ChatGPT v4 (m=10,7/12,4, σ=2,2, p=0,6475), ChatGPT v3.5 (m=9,5/12,4 σ=2,1, p=0,0062) et Bard (m=7,2/12,4, σ=3,3, p<0,0001). Le score moyen des internes (m=9,4/12,4, σ=1,7) était plus élevé que Bard (m=7,2/12,4 σ=3,3, p=0,0053) mais plus faible que ChatGPT v3.5 (m=9,5/12,4, σ=2,1, p=0,8393), v4 (m=10,7/12,4, σ=2,2, p=0,0183) et que les experts (m=11,0/12,4, σ=1.4, p=0,0009). La performance de ChatGPT v4 (m=10.7, σ=2.2) était meilleure que la performance de ChatGPT v3.5 (m=9,5, σ=2,1, p=0,0476) et Bard (m=7,2 σ=3,3, p<0,0001).

Conclusion

L’utilisation des chatbots en médecine pourrait être pertinente. D’autres études sont nécessaires avant de les intégrer dans la pratique clinique.

Niveau de preuve

4.

Le texte complet de cet article est disponible en PDF.

Keywords : Artificial intelligence, Andrology, Clinical reasoning, Natural language processing


Plan


© 2024  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 34 - N° 5

Article 102636- juin 2024 Retour au numéro
Article précédent Article précédent
  • Salvage high-intensity focused ultrasound (S-HIFU) for recurrence after primary radiotherapy of prostate cancer
  • Thibaut Long Depaquit, Jennifer Campagna, Cyrille Bastide, Michael Baboudjian, Renaud Corral, Alessandro Uleri, Harry Toledano
| Article suivant Article suivant
  • Vasectomy: An increasingly common procedure in France
  • Eric Huyghe, Quentin Ducrot, Nadège Costa

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.