Comparative evaluation of generalist and veterinary specialized large language models for clinical reasoning support in veterinary medicine: A blinded multi-expert assessment - 06/06/26

Évaluation comparative de modèles linguistiques généraux et de modèles linguistiques spécialisés en médecine vétérinaire pour l’aide au raisonnement clinique : une évaluation multi-experts en aveugle

Doi : 10.1016/j.anicom.2026.05.001

T. Audouin ^a,⁎ , E. Asimus ^b, C. Béata ^c, G. Blanchard ^d, B. Michaud ^e, J. Monot ^f, H. Pouliquen ^g, D. Sayag ^h, J.L. Cadoré ⁱ, J. Hernandez ^j,^k

^a Vetolution, Laval, France

^b École Nationale Vétérinaire de Toulouse, Toulouse, France

^c Vétérinaire Comportementaliste, Zoopsy, Toulon, France

^d Animal Nutrition Expertise, Arbonne, France

^e Clinique Vétérinaire Anima-Vet, Saint-Genis-Pouilly, France

^f Clinique Vétérinaire Emergence Vet, Montrouge, France

^g Oniris VetAgroBio, UMR BIOEPAR, Nantes, France

^h ONCOnseil – Service d’Oncologie Vetoccitanie, Toulouse, France

ⁱ VetAgro Sup, Université de Lyon, Marcy-l’Étoile, France

^j Oniris VetAgroBio, Nantes, France

^k INRAE, Micalis, Jouy-en-Josas, France

^⁎ Corresponding author.

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Saturday 06 June 2026

Summary

Background

Large language models (LLMs) are now being used in veterinary practice, but their clinical reasoning capabilities remain poorly assessed in this context.

Material and methods

Ten LLMs (six general-purpose models and four specialised in veterinary medicine) were compared across ten real-world clinical cases spanning eight specialities. Certified veterinary specialists, working in a blinded manner, assessed the responses using a six-dimensional scoring grid (content and form, maximum 240 points per case).

Results

Overall performance was judged to be equivalent to that of a final-year student. Generalist models outperformed specialist models (12.45 ± 3.59 vs. 10.88 ± 3.75; P < 0.001; r = 0.22). Form scores consistently exceeded content scores (mean difference: 1.40 points). Hallucinations were consistently identified.

Conclusions

Specialised LLMs do not currently offer any advantage in clinical reasoning. The quality of the responses’ wording, which is superior to their clinical substance, may foster overconfidence in users. These results call for rigorous supervision of the use of LLMs in veterinary medicine.

Le texte complet de cet article est disponible en PDF.

Résumé

Propos

Les grands modèles de langage (LLM) sont désormais utilisés en pratique vétérinaire, mais leurs capacités de raisonnement clinique restent mal évaluées dans ce contexte.

Matériel et méthodes

Dix LLM (six généralistes, quatre spécialisés en médecine vétérinaire) ont été comparés sur dix cas cliniques authentiques couvrant huit spécialités. Des vétérinaires spécialistes certifiés, en aveugle, ont évalué les réponses selon une grille structurée en six dimensions (contenu et forme, maximum 240 points/cas).

Résultats

Les performances globales sont jugées équivalentes à celles d’un étudiant en dernière année. Les modèles généralistes surpassent les modèles spécialisés (12,45 ± 3,59 vs 10,88 ± 3,75 ; p < 0,001 ; r = 0,22). Les scores de forme excèdent systématiquement ceux de contenu (différence moyenne : 1,40 point). Des hallucinations ont systématiquement été recensées.

Conclusions

Les LLM spécialisés ne confèrent à ce jour pas d’avantage en raisonnement clinique. La qualité de rédaction des réponses, supérieure au fond clinique, représente un risque d’excès de confiance par les utilisateurs. Ces résultats appellent à un encadrement rigoureux de l’usage des LLM en médecine vétérinaire.

Le texte complet de cet article est disponible en PDF.

Keywords : Artificial intelligence, Large language model, Veterinary medicine, Clinical decision support, Comparative evaluation

Mots clés : Intelligence artificielle, Grand modèle linguistique, Médecine vétérinaire, Aide à la décision clinique, Évaluation comparative

Plan

☆	Crédits de formation continue. – La lecture de cet article ouvre droit à 0,05 CFC. La déclaration de lecture, individuelle et volontaire, est à effectuer auprès du CNVFCC (cf. sommaire).

Export

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Comparative evaluation of generalist and veterinary specialized large language models for clinical reasoning support in veterinary medicine: A blinded multi-expert assessment - 06/06/26

Évaluation comparative de modèles linguistiques généraux et de modèles linguistiques spécialisés en médecine vétérinaire pour l’aide au raisonnement clinique : une évaluation multi-experts en aveugle

Summary

Background

Material and methods

Results

Conclusions

Résumé

Propos

Matériel et méthodes

Résultats

Conclusions

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL