Chatbots vs andrologists: Testing 25 clinical cases - 03/05/24
, Aurelie Schirmann a, Adrien Vidart a, Cyrille Guillot-Tantay a, Vincent Izard a, Thierry Lebret a, Bernard Boillot a, Benoit Mesnard a, Cedric Lebacle b, François-Xavier Madec aAbstract |
Objective |
AI-derived language models are booming, and their place in medicine is undefined. The aim of our study is to compare responses to andrology clinical cases, between chatbots and andrologists, to assess the reliability of these technologies.
Material and method |
We analyzed the responses of 32 experts, 18 residents and three chatbots (ChatGPT v3.5, v4 and Bard) to 25 andrology clinical cases. Responses were assessed on a Likert scale ranging from 0 to 2 for each question (0-false response or no response; 1-partially correct response, 2- correct response), on the basis of the latest national or, in the absence of such, international recommendations. We compared the averages obtained for all cases by the different groups.
Results |
Experts obtained a higher mean score (m=11/12.4 σ=1.4) than ChatGPT v4 (m=10.7/12.4 σ=2.2, p=0.6475), ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.0062) and Bard (m=7.2/12.4 σ=3.3, p<0.0001). Residents obtained a mean score (m=9.4/12.4 σ=1.7) higher than Bard (m=7.2/12.4 σ=3.3, p=0.0053) but lower than ChatGPT v3.5 (m=9.5/12.4 σ=2.1, p=0.8393) and v4 (m=10.7/12.4 σ=2.2, p=0.0183) and experts (m=11.0/12.4 σ=1.4,p=0.0009). ChatGPT v4 performance (m=10.7 σ=2.2) was better than ChatGPT v3.5 (m=9.5, σ=2.1, p=0.0476) and Bard performance (m=7.2 σ=3.3, p<0.0001).
Conclusion |
The use of chatbots in medicine could be relevant. More studies are needed to integrate them into clinical practice.
Level of evidence |
4.
Le texte complet de cet article est disponible en PDF.Résumé |
Objectif |
La place des robots conversationnels en médecine n’est pas définie. L’objectif de l’étude est de comparer les réponses à des cas cliniques d’andrologie, entre des chatbots et des andrologues, afin d’évaluer la fiabilité de ces outils.
Matériels et méthodes |
Nous avons analysé les réponses de 32 experts, 18 internes et trois chatbots (ChatGPT v3.5, v4 et Bard) à 25 cas cliniques d’andrologie. Les réponses ont été évaluées selon une échelle de Likert allant de 0 à 2 (0-réponse fausse ou absente; 1-réponse partiellement correcte, 2- réponse correcte) selon les dernières recommandations nationales ou, en cas d’absence, internationales. Nous avons comparé les moyennes obtenues pour l’ensemble des cas par les différents groupes.
Résultats |
Les experts ont obtenu un score moyen (m=11/12,4, σ=1,4) plus élevé que ChatGPT v4 (m=10,7/12,4, σ=2,2, p=0,6475), ChatGPT v3.5 (m=9,5/12,4 σ=2,1, p=0,0062) et Bard (m=7,2/12,4, σ=3,3, p<0,0001). Le score moyen des internes (m=9,4/12,4, σ=1,7) était plus élevé que Bard (m=7,2/12,4 σ=3,3, p=0,0053) mais plus faible que ChatGPT v3.5 (m=9,5/12,4, σ=2,1, p=0,8393), v4 (m=10,7/12,4, σ=2,2, p=0,0183) et que les experts (m=11,0/12,4, σ=1.4, p=0,0009). La performance de ChatGPT v4 (m=10.7, σ=2.2) était meilleure que la performance de ChatGPT v3.5 (m=9,5, σ=2,1, p=0,0476) et Bard (m=7,2 σ=3,3, p<0,0001).
Conclusion |
L’utilisation des chatbots en médecine pourrait être pertinente. D’autres études sont nécessaires avant de les intégrer dans la pratique clinique.
Niveau de preuve |
4.
Le texte complet de cet article est disponible en PDF.Keywords : Artificial intelligence, Andrology, Clinical reasoning, Natural language processing
Plan
Vol 34 - N° 5
Article 102636- juin 2024 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
