Validité et fiabilité des réponses fournies par trois LLM (ChatGPT, Mistral et Perplexity) concernant les traitements antibiotiques pour des pathologies infectieuses courantes en soins primaires en France, comparées aux réponses proposées par le système d'aide à la décision Antibioclic. - 22/05/26
Résumé |
Introduction |
Le développement rapide de l'intelligence artificielle générative et des grands modèles de langage (LLM) a ouvert de nouvelles perspectives dans la pratique médicale. Cependant, leur capacité à générer des réponses fluides et immédiates en langage naturel soulève des inquiétudes quant à la fiabilité et à la sécurité des informations fournies. La prescription d'antibiotiques, une activité courante en soins primaires, régie par des recommandations explicites et régulièrement mises à jour, constitue un champ d'évaluation pertinent. L'objectif de cette étude est d'évaluer la validité des stratégies thérapeutiques et la fiabilité des références bibliographiques proposées par trois LLM à usage général (ChatGPT, Mistral et Perplexity) pour des pathologies infectieuses courantes en soins primaires en France, par rapport aux recommandations du système français d'aide à la décision clinique Antibioclic.
Matériels et méthodes |
Quatorze pathologies infectieuses bactériennes et virales fréquentes en soins primaires ont été déclinées selon différentes catégories de situations cliniques (appareil concerné, pathologie, forme clinique, indication à un traitement antibiotique ou non, âge, grossesse, allaitement, insuffisance rénale, allergie). Pour chacune, une requête standardisée (prompt) a été soumise aux trois LLM en juin 2025. Au total, 334 prompts ont généré 1002 réponses et 3006 références bibliographiques qui ont été comparées aux réponses d'Antibioclic pour chaque situation.
Résultats |
Concernant la validité, 41,5 % des stratégies proposées par les LLM étaient concordantes à celles d'Antibioclic. Concernant la fiabilité, 23,4 % des références étaient considérées comme robustes, 69,5 % étaient insuffisantes, incorrectes ou hallucinées. 12,3% des réponses étaient à la fois valides et soutenues par des références fiables. Ces résultats variaient selon le modèle de LLM utilisé et les situations cliniques étudiées.
Conclusion |
Ces résultats mettent en évidence les limites actuelles de l'utilisation des trois LLM étudiés dans un contexte clinique réel. Leurs réponses trop aléatoires exposent à un risque de prescriptions inadaptées. L'enjeu principal réside moins dans leur potentiel technique que dans leur encadrement, et ne sauraient à ce jour remplacer un raisonnement critique basé sur des recommandations validées. Leur intégration en pratique clinique devrait rester strictement supervisée afin de garantir sécurité et pertinence d'utilisation en soins primaires.
Le texte complet de cet article est disponible en PDF.Vol 5 - N° 2S
P. S48 - juin 2026 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
