S'abonner

RUBY – Développement d’algorithme d’intelligence artificielle pour la structuration automatique des comptes rendus médicaux de patientes atteintes d’un cancer du sein - 22/05/21

Doi : 10.1016/j.respe.2021.04.014 
R. Schiappa a, , G. Uzbelger b, B. Thamphya a, A. Fabre b, S. Toledano b, C. Bailleux c, E. Barranger c, E. Chamorey a
a Centre Antoine-Lacassagne, département d’épidémiologie, de biostatistique et des données de santé, Nice, France 
b IBM, Artificial Intelligence – Advanced Analytics Solutions, Bois-Colombes, France 
c Centre Antoine-Lacassagne, département d’oncologie sénologie, Nice, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

La prise en charge des patients génère de grande quantité de données dont 80 % sont enregistrées dans des comptes rendus (CR) textuels non structurés. Au centre Antoine-Lacassagne (CAL), c’est plus de trois millions de CR qui constituent un réservoir d’informations très peu exploité. À l’heure du big data et de l’intelligence artificielle (IA), la création d’une plateforme de données de santé structurées et exploitables est un important challenge pour les établissements de santé. L’objectif de cette première étape de RUBY était de développer, en collaboration avec IBM, des algorithmes d’IA capables de structurer les données des CR des patientes atteintes d’un cancer du sein et de les intégrer automatiquement dans un fichier de données structurées. Cette étude de type « preuve de concept » a été réalisée sur la première consultation (PCONS), la première biopsie (PBIO), la première chirurgie (PCHIR) et le premier CR d’anatomopathologie (PANA) des patientes du CAL.

Méthodes

Deux bases de données de cancer du sein ont été fusionnées pour créer une base de données structurées (BDDS) : la base SEIN-CAL (patientes prises en charge avant 2008) et la base ESME-CSM (patients prises en charge après 2008). La population a été scindée en deux, permettant de créer une cohorte d’entraînement (CE=70 % des patientes et leurs CR associés) et une cohorte de test (CT=30 %). Les CR ont nécessité un prétraitement, et une segmentation a été effectuée afin de faciliter l’identification des données à extraire. Les CR ont été annotés manuellement avec BRAT, puis des algorithmes d’apprentissage utilisant le réseau neuronal convolutif ont été exécutés avec SpaCy. Un fichier de données structurées (.csv) a été produit et les indicateurs de performances de RUBY ont été évalués et comparés aux performances d’une structuration manuelle des données par un attaché de recherche clinique (ARC).

Résultats

Plus de 2300 patientes ont été incluses dans les deux bases fusionnées. Pour les variables PCONS, sur 8 variables testées, la précision de RUBY était comprise entre 64 % et 98 % respectivement pour les variables « N clinique » et « indication de la première venue ». Pour PBIO, sur 10 variables, la précision de RUBY variait de 93 à 100 %. Pour PCHIR, la précision de RUBY était>93 % pour 6 des 7 variables d’intérêt et de 79 % pour l’ « indication de la chirurgie ». Pour PANA, la précision de RUBY était>90 % pour 15/19 variables dont 11 étaient>95 %, la précision était>75 % pour les 4 autres variables. À ce stade de niveau d’apprentissage, les performances de RUBY sont supérieures à celles d’un ARC dans 43 % des cas. Le temps nécessaire pour structurer automatiquement les données des 2300 patientes a été de moins de 25 minutes avec RUBY versus 30 jours par un ARC en structuration manuelle.

Conclusion

Les premiers résultats de RUBY sont très encourageants et une nouvelle phase d’annotation est en cours afin d’améliorer les résultats de l’algorithme. Les performances de RUBY sont meilleures sur les CR semi structurés comme PBIO, PCHIR et PANA. Les PCONS sont les plus difficiles à structurer automatiquement car restent médecins-dépendants. Le démonstrateur RUBY a permis de progresser dans la structuration automatique des données du cancer du sein au CAL. Il est maintenant nécessaire d’optimiser les algorithmes afin d’améliorer les performances de RUBY et de déployer cette application à d’autres types de CR et d’autres pathologies puis d’autres établissements.

Le texte complet de cet article est disponible en PDF.

Mots clés : Intelligence artificielle, Deep learning, Cancer du sein, Structuration automatique, Python


Plan


© 2021  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 69 - N° S1

P. S11 - juin 2021 Retour au numéro
Article précédent Article précédent
  • G-computation et intelligence artificielle en inférence causale
  • A. Chatton, F. Le Borgne, M. Léger, R. Lenain, Y. Foucher
| Article suivant Article suivant
  • Peut-on duper facilement les algorithmes d’apprentissage profond de reconnaissance d’images médicales ?
  • J. Allyn, N. Allou, C. Ferdynus

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.