S'abonner

Du texte libre à l'e-CRF : automatiser l'extraction des données cliniques - 10/03/26

Doi : 10.1016/j.jeph.2026.203279 
Mathilde FRUCHART 1, , Antoine TESTON 1, Sophia HOURIEZ-GOMBAUD-SAINTONGE 1, Roxane SCHMITT 2, Marie NOPPE 3
1 Equipe R&D, Codoc, Paris, France 
2 Equipe business, Codoc, Paris, France 
3 Equipe tech, Codoc, Paris, France 

Auteur correspondant.

Résumé

Introduction

Les données textuelles des dossiers patients représentent une source d’information clinique majeure mais difficile à exploiter en raison de leur complexité et leur hétérogénéité. Des outils d'extraction automatique sont nécessaires pour valoriser ces données, aucun ne couvre encore l'ensemble des variables techniques, entraînant une restructuration manuelle sujette aux biais. Ce travail propose une méthodologie fondée sur le NLP pour transformer ces données en informations exploitables pour favoriser la recherche clinique.

Méthodes

Un processus d’ETL a été mis en place pour extraire du contenu textuel des documents via des parseurs disponibles en Python, puis le stocker dans un modèle relationnel patient-centré, garantissant la cohérence entre documents et entités cliniques. Un second pipeline applique des techniques d’extraction et de désambiguïsation (négation, contexte familial) à partir d'expressions régulières et des thésaurus médicaux de référence (HPO, MedDRA, Mesh) mappés aux codes standards UMLS.

Les textes enrichis sont indexés dans une base OpenSearch, offrant une recherche rapide et efficace. L’intégration à différents outils de valorisation permet d’optimiser les temps de réponse pour l’exploration des données. La méthode combine NLP, ontologies médicales et règles expertes, et permet d’enrichir les requêtes selon la connaissance métier, via un outil de revue facilitant la validation des extractions.

Résultats

Un total de 6.000 documents fictifs, issus d’une cohorte simulée de 1.473 patients atteints de diabète, ont été intégrés et traités en 90 minutes sur une machine standard (6 vCPU, 16 Go de RAM).

S’appuyant sur un référentiel de plus de 7 millions de concepts médicaux standardisés, la méthode a permis d’identifier en moyenne 43 concepts par patient, garantissant un accès rapide et ciblé aux informations pertinentes du dossier.

Un e-CRF de 32 variables a été prérempli automatiquement à partir de données de patients diabétiques, avec 94 % d'auto-complétion en 13 minutes (100% sur données structurées, 92% sur textuelles).

Discussion/Conclusion

La méthodologie démontre la faisabilité d’un processus semi-automatisé d’extraction et de valorisation des données cliniques, depuis leur intégration jusqu’à l’implémentation d’un e-CRF.

Le texte complet de cet article est disponible en PDF.

Mots-clés : Entrepôt de données, NLP, e-CRF



© 2026  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 74 - N° S1

Article 203279- mars 2026 Retour au numéro
Article précédent Article précédent
  • Impact du déremboursement des anticholinestérasiques sur la détection des patients atteints de démence jeune dans le SNDS
  • Léa AGUILHON, Marc DIBLING, Octave GUINEBRETIERE, Quentin CALONGE, Thomas NEDELEC
| Article suivant Article suivant
  • Impact d'un passage en gériatrie aiguë après un séjour en réanimation chez les patients de plus de 80 ans - Groupe hospitalier Universitaire Sorbonne Université, Paris
  • Aurélia RETBI, Mathilde FALIÈRES, Caroline THOMAS, Bertrand GUIDET, Hélène VALLET, Sophie TEZENAS DU MONTCEL

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.