S'abonner

Comparative evaluation of generalist and veterinary specialized large language models for clinical reasoning support in veterinary medicine: A blinded multi-expert assessment - 06/06/26

Évaluation comparative de modèles linguistiques généraux et de modèles linguistiques spécialisés en médecine vétérinaire pour l’aide au raisonnement clinique : une évaluation multi-experts en aveugle

Doi : 10.1016/j.anicom.2026.05.001 
T. Audouin a, , E. Asimus b, C. Béata c, G. Blanchard d, B. Michaud e, J. Monot f, H. Pouliquen g, D. Sayag h, J.L. Cadoré i, J. Hernandez j, k
a Vetolution, Laval, France 
b École Nationale Vétérinaire de Toulouse, Toulouse, France 
c Vétérinaire Comportementaliste, Zoopsy, Toulon, France 
d Animal Nutrition Expertise, Arbonne, France 
e Clinique Vétérinaire Anima-Vet, Saint-Genis-Pouilly, France 
f Clinique Vétérinaire Emergence Vet, Montrouge, France 
g Oniris VetAgroBio, UMR BIOEPAR, Nantes, France 
h ONCOnseil – Service d’Oncologie Vetoccitanie, Toulouse, France 
i VetAgro Sup, Université de Lyon, Marcy-l’Étoile, France 
j Oniris VetAgroBio, Nantes, France 
k INRAE, Micalis, Jouy-en-Josas, France 

Corresponding author.
Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Saturday 06 June 2026

Summary

Background

Large language models (LLMs) are now being used in veterinary practice, but their clinical reasoning capabilities remain poorly assessed in this context.

Material and methods

Ten LLMs (six general-purpose models and four specialised in veterinary medicine) were compared across ten real-world clinical cases spanning eight specialities. Certified veterinary specialists, working in a blinded manner, assessed the responses using a six-dimensional scoring grid (content and form, maximum 240 points per case).

Results

Overall performance was judged to be equivalent to that of a final-year student. Generalist models outperformed specialist models (12.45 ± 3.59 vs. 10.88 ± 3.75; P < 0.001; r = 0.22). Form scores consistently exceeded content scores (mean difference: 1.40 points). Hallucinations were consistently identified.

Conclusions

Specialised LLMs do not currently offer any advantage in clinical reasoning. The quality of the responses’ wording, which is superior to their clinical substance, may foster overconfidence in users. These results call for rigorous supervision of the use of LLMs in veterinary medicine.

Le texte complet de cet article est disponible en PDF.

Résumé

Propos

Les grands modèles de langage (LLM) sont désormais utilisés en pratique vétérinaire, mais leurs capacités de raisonnement clinique restent mal évaluées dans ce contexte.

Matériel et méthodes

Dix LLM (six généralistes, quatre spécialisés en médecine vétérinaire) ont été comparés sur dix cas cliniques authentiques couvrant huit spécialités. Des vétérinaires spécialistes certifiés, en aveugle, ont évalué les réponses selon une grille structurée en six dimensions (contenu et forme, maximum 240 points/cas).

Résultats

Les performances globales sont jugées équivalentes à celles d’un étudiant en dernière année. Les modèles généralistes surpassent les modèles spécialisés (12,45 ± 3,59 vs 10,88 ± 3,75 ; p < 0,001 ; r = 0,22). Les scores de forme excèdent systématiquement ceux de contenu (différence moyenne : 1,40 point). Des hallucinations ont systématiquement été recensées.

Conclusions

Les LLM spécialisés ne confèrent à ce jour pas d’avantage en raisonnement clinique. La qualité de rédaction des réponses, supérieure au fond clinique, représente un risque d’excès de confiance par les utilisateurs. Ces résultats appellent à un encadrement rigoureux de l’usage des LLM en médecine vétérinaire.

Le texte complet de cet article est disponible en PDF.

Keywords : Artificial intelligence, Large language model, Veterinary medicine, Clinical decision support, Comparative evaluation

Mots clés : Intelligence artificielle, Grand modèle linguistique, Médecine vétérinaire, Aide à la décision clinique, Évaluation comparative


Plan


 Crédits de formation continue. – La lecture de cet article ouvre droit à 0,05 CFC. La déclaration de lecture, individuelle et volontaire, est à effectuer auprès du CNVFCC (cf. sommaire).


© 2026  AFVAC. Publié par Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.