Validité et fiabilité des réponses fournies par trois LLM (ChatGPT, Mistral et Perplexity) concernant les traitements antibiotiques pour des pathologies infectieuses courantes en soins primaires en France, comparées aux réponses proposées par le système d'aide à la décision Antibioclic. - 22/05/26

Doi : 10.1016/j.mmifmc.2026.04.098

L. Charhon ¹, T. Delory ², S. Lariven ³, E. Bouvet ³, P. Jeanmougin ⁴, J. Le Bel ¹

¹ Université Paris Cité, Département de médecine générale, Paris, France

² Centre hospitalier Annecy Genevois, Annecy, France

³ Comité de pilotage d'Antibioclic, Paris, France

⁴ Unversité de Nantes, Département de médecine générale, Nantes, France

Résumé

Introduction

Le développement rapide de l'intelligence artificielle générative et des grands modèles de langage (LLM) a ouvert de nouvelles perspectives dans la pratique médicale. Cependant, leur capacité à générer des réponses fluides et immédiates en langage naturel soulève des inquiétudes quant à la fiabilité et à la sécurité des informations fournies. La prescription d'antibiotiques, une activité courante en soins primaires, régie par des recommandations explicites et régulièrement mises à jour, constitue un champ d'évaluation pertinent. L'objectif de cette étude est d'évaluer la validité des stratégies thérapeutiques et la fiabilité des références bibliographiques proposées par trois LLM à usage général (ChatGPT, Mistral et Perplexity) pour des pathologies infectieuses courantes en soins primaires en France, par rapport aux recommandations du système français d'aide à la décision clinique Antibioclic.

Matériels et méthodes

Quatorze pathologies infectieuses bactériennes et virales fréquentes en soins primaires ont été déclinées selon différentes catégories de situations cliniques (appareil concerné, pathologie, forme clinique, indication à un traitement antibiotique ou non, âge, grossesse, allaitement, insuffisance rénale, allergie). Pour chacune, une requête standardisée (prompt) a été soumise aux trois LLM en juin 2025. Au total, 334 prompts ont généré 1002 réponses et 3006 références bibliographiques qui ont été comparées aux réponses d'Antibioclic pour chaque situation.

Résultats

Concernant la validité, 41,5 % des stratégies proposées par les LLM étaient concordantes à celles d'Antibioclic. Concernant la fiabilité, 23,4 % des références étaient considérées comme robustes, 69,5 % étaient insuffisantes, incorrectes ou hallucinées. 12,3% des réponses étaient à la fois valides et soutenues par des références fiables. Ces résultats variaient selon le modèle de LLM utilisé et les situations cliniques étudiées.

Conclusion

Ces résultats mettent en évidence les limites actuelles de l'utilisation des trois LLM étudiés dans un contexte clinique réel. Leurs réponses trop aléatoires exposent à un risque de prescriptions inadaptées. L'enjeu principal réside moins dans leur potentiel technique que dans leur encadrement, et ne sauraient à ce jour remplacer un raisonnement critique basé sur des recommandations validées. Leur intégration en pratique clinique devrait rester strictement supervisée afin de garantir sécurité et pertinence d'utilisation en soins primaires.

Le texte complet de cet article est disponible en PDF.

Export

Vol 5 - N° 2S

P. S48 - juin 2026 Retour au numéro

Article précédent

Bon usage antibiotique en Ehpad: progrès 2015-2024 via 4 proxi-indicateurs
S. Maugat, G. Ben Hmidene, R. Lefrançois

| Article suivant

Infections respiratoires basses en soins primaires: analyse d'un entrepôt national de données de santé sur 10 ans
E. Hild, E. d’Anglejan, N. Boillat-Blanco, J. Derdevet, C. Kowalski, C. Eteve-Pitsaer, I. Ghout, A. Dinh

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Résumé

Introduction

Matériels et méthodes

Résultats

Conclusion

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL