Comparative evaluation of generalist and veterinary specialized large language models for clinical reasoning support in veterinary medicine: A blinded multi-expert assessment - 06/06/26
Évaluation comparative de modèles linguistiques généraux et de modèles linguistiques spécialisés en médecine vétérinaire pour l’aide au raisonnement clinique : une évaluation multi-experts en aveugle
, E. Asimus b, C. Béata c, G. Blanchard d, B. Michaud e, J. Monot f, H. Pouliquen g, D. Sayag h, J.L. Cadoré i, J. Hernandez j, kSummary |
Background |
Large language models (LLMs) are now being used in veterinary practice, but their clinical reasoning capabilities remain poorly assessed in this context.
Material and methods |
Ten LLMs (six general-purpose models and four specialised in veterinary medicine) were compared across ten real-world clinical cases spanning eight specialities. Certified veterinary specialists, working in a blinded manner, assessed the responses using a six-dimensional scoring grid (content and form, maximum 240 points per case).
Results |
Overall performance was judged to be equivalent to that of a final-year student. Generalist models outperformed specialist models (12.45 ± 3.59 vs. 10.88 ± 3.75; P < 0.001; r = 0.22). Form scores consistently exceeded content scores (mean difference: 1.40 points). Hallucinations were consistently identified.
Conclusions |
Specialised LLMs do not currently offer any advantage in clinical reasoning. The quality of the responses’ wording, which is superior to their clinical substance, may foster overconfidence in users. These results call for rigorous supervision of the use of LLMs in veterinary medicine.
Le texte complet de cet article est disponible en PDF.Résumé |
Propos |
Les grands modèles de langage (LLM) sont désormais utilisés en pratique vétérinaire, mais leurs capacités de raisonnement clinique restent mal évaluées dans ce contexte.
Matériel et méthodes |
Dix LLM (six généralistes, quatre spécialisés en médecine vétérinaire) ont été comparés sur dix cas cliniques authentiques couvrant huit spécialités. Des vétérinaires spécialistes certifiés, en aveugle, ont évalué les réponses selon une grille structurée en six dimensions (contenu et forme, maximum 240 points/cas).
Résultats |
Les performances globales sont jugées équivalentes à celles d’un étudiant en dernière année. Les modèles généralistes surpassent les modèles spécialisés (12,45 ± 3,59 vs 10,88 ± 3,75 ; p < 0,001 ; r = 0,22). Les scores de forme excèdent systématiquement ceux de contenu (différence moyenne : 1,40 point). Des hallucinations ont systématiquement été recensées.
Conclusions |
Les LLM spécialisés ne confèrent à ce jour pas d’avantage en raisonnement clinique. La qualité de rédaction des réponses, supérieure au fond clinique, représente un risque d’excès de confiance par les utilisateurs. Ces résultats appellent à un encadrement rigoureux de l’usage des LLM en médecine vétérinaire.
Le texte complet de cet article est disponible en PDF.Keywords : Artificial intelligence, Large language model, Veterinary medicine, Clinical decision support, Comparative evaluation
Mots clés : Intelligence artificielle, Grand modèle linguistique, Médecine vétérinaire, Aide à la décision clinique, Évaluation comparative
Plan
| ☆ | Crédits de formation continue. – La lecture de cet article ouvre droit à 0,05 CFC. La déclaration de lecture, individuelle et volontaire, est à effectuer auprès du CNVFCC (cf. sommaire). |
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?
