De PubMed à GPT : une revue narrative du rôle émergent des grands modèles de langage pour les revues systématiques - 09/06/26

From PubMed to GPT: A narrative review of the emerging role of Large Language Models in systematic reviews

Doi : 10.1016/j.gofs.2026.05.004

Benjamin Birene ^a,⁎, ^b , Benjamin Popoff ^c,^d, Olivier Graesslin ^a, Vincent Vuiblet ^b, Olivier Morel ^e

^a Service de gynécologie et obstétrique, CHU de Reims, Reims, France

^b Institut d’intelligence artificielle en santé, université de Reims Champagne-Ardenne, Reims, France

^c Department of Anesthesiology, Critical Care and Perioperative Medicine, CHU of Rouen, Rouen, France

^d Department of Digital Health, AIMS, University of Rouen-Normandie, CHU of Rouen, 76000 Rouen, France

^e Service d’obstétrique et de médecine fœtale, CHRU de Nancy, Nancy, France

^⁎ Auteur correspondant. Service de gynécologie et obstétrique, hôpital Maison Blanche, 45, rue Cognacq-Jay, Reims, France. Service de gynécologie et obstétrique, hôpital Maison Blanche 45, rue Cognacq-Jay Reims France

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le Tuesday 09 June 2026

Résumé

Objectif

Les revues systématiques sont des piliers de la médecine fondée sur les preuves, mais leur réalisation est chronophage et sujette aux erreurs. Les grands modèles de langage ( Large Language Models , LLM), tels que ChatGPT ou Claude, offrent de nouvelles perspectives d’automatisation partielle de ces processus. Cet article présente une synthèse critique des usages actuels des LLM dans les différentes étapes des revues systématiques et méta-analyses en santé.

Méthodes

Revue narrative menée à partir d’une recherche bibliographique dans PubMed et Scopus (2019–2025), incluant les études empiriques, revues de portée, preprints et documents techniques abordant l’intégration des LLM dans une ou plusieurs étapes du processus de revue systématique.

Résultats

Les LLM peuvent assister la génération de questions de recherche, la formulation des stratégies bibliographiques, le tri des références, l’extraction des données, la production de scripts de méta-analyse et la rédaction des synthèses. Les performances rapportées sont souvent élevées, notamment pour la sélection des articles et l’extraction de données quantitatives, avec des sensibilités atteignant 95–98 %. Toutefois, des limites importantes subsistent : hallucinations, biais, erreurs d’interprétation, et variabilité selon les modèles. De plus, l’évaluation indépendante reste rare.

Conclusion

Les LLM montrent un potentiel prometteur pour accélérer certaines étapes des revues systématiques, à condition d’un encadrement méthodologique rigoureux. Une approche semi-automatisée, combinant les forces de l’IA et l’expertise humaine, apparaît aujourd’hui comme la plus sûre. L’optimisation des prompts, la validation des résultats et la transparence sur l’usage de ces outils sont indispensables pour garantir la qualité des synthèses produites.

Le texte complet de cet article est disponible en PDF.

Abstract

Objective

Systematic reviews are a cornerstone of evidence-based medicine but remain time-consuming and prone to human error. Large Language Models (LLMs), such as ChatGPT or Claude, offer new opportunities for partial automation of these tasks. This articles aims to provide a critical synthesis of the current uses of LLMs across the key stages of systematic reviews and meta-analyses in healthcare.

Methods

We conducted a narrative review based on a literature search in PubMed and Scopus (2019–2025), including empirical studies, scoping reviews, preprints, and technical reports discussing the use of LLMs in any stage of the systematic review process.

Results

LLMs can support research question formulation, search strategy development, reference screening, data extraction, meta-analysis scripting, and result synthesis. Reported performances are often high, especially for screening and quantitative data extraction, with sensitivities of 95–98%. However, significant limitations persist: hallucinations, bias, misinterpretations, and variability across models. Independent validation remains scarce.

Conclusion

LLMs show promising potential to accelerate several stages of systematic reviews, provided their use is methodologically controlled. A semi-automated approach, combining AI capabilities with human expertise, currently appears the safest. Prompt structuring, result validation, and transparent reporting of AI involvement are essential to ensure the quality and reliability of the synthesized evidence.

Le texte complet de cet article est disponible en PDF.

Mots clés : Grand modèle de langue, Revue systématique, Méta-analyse comme sujet, Intelligence artificielle, Médecine factuelle

Keywords : Large Language Models, Systematic review, Meta-analysis as topic, Artificial intelligence, Evidence-based medicine