RUBY – Développement d’algorithme d’intelligence artificielle pour la structuration automatique des comptes rendus médicaux de patientes atteintes d’un cancer du sein - 22/05/21
, G. Uzbelger b, B. Thamphya a, A. Fabre b, S. Toledano b, C. Bailleux c, E. Barranger c, E. Chamorey aRésumé |
Introduction |
La prise en charge des patients génère de grande quantité de données dont 80 % sont enregistrées dans des comptes rendus (CR) textuels non structurés. Au centre Antoine-Lacassagne (CAL), c’est plus de trois millions de CR qui constituent un réservoir d’informations très peu exploité. À l’heure du big data et de l’intelligence artificielle (IA), la création d’une plateforme de données de santé structurées et exploitables est un important challenge pour les établissements de santé. L’objectif de cette première étape de RUBY était de développer, en collaboration avec IBM, des algorithmes d’IA capables de structurer les données des CR des patientes atteintes d’un cancer du sein et de les intégrer automatiquement dans un fichier de données structurées. Cette étude de type « preuve de concept » a été réalisée sur la première consultation (PCONS), la première biopsie (PBIO), la première chirurgie (PCHIR) et le premier CR d’anatomopathologie (PANA) des patientes du CAL.
Méthodes |
Deux bases de données de cancer du sein ont été fusionnées pour créer une base de données structurées (BDDS) : la base SEIN-CAL (patientes prises en charge avant 2008) et la base ESME-CSM (patients prises en charge après 2008). La population a été scindée en deux, permettant de créer une cohorte d’entraînement (CE=70 % des patientes et leurs CR associés) et une cohorte de test (CT=30 %). Les CR ont nécessité un prétraitement, et une segmentation a été effectuée afin de faciliter l’identification des données à extraire. Les CR ont été annotés manuellement avec BRAT, puis des algorithmes d’apprentissage utilisant le réseau neuronal convolutif ont été exécutés avec SpaCy. Un fichier de données structurées (.csv) a été produit et les indicateurs de performances de RUBY ont été évalués et comparés aux performances d’une structuration manuelle des données par un attaché de recherche clinique (ARC).
Résultats |
Plus de 2300 patientes ont été incluses dans les deux bases fusionnées. Pour les variables PCONS, sur 8 variables testées, la précision de RUBY était comprise entre 64 % et 98 % respectivement pour les variables « N clinique » et « indication de la première venue ». Pour PBIO, sur 10 variables, la précision de RUBY variait de 93 à 100 %. Pour PCHIR, la précision de RUBY était>93 % pour 6 des 7 variables d’intérêt et de 79 % pour l’ « indication de la chirurgie ». Pour PANA, la précision de RUBY était>90 % pour 15/19 variables dont 11 étaient>95 %, la précision était>75 % pour les 4 autres variables. À ce stade de niveau d’apprentissage, les performances de RUBY sont supérieures à celles d’un ARC dans 43 % des cas. Le temps nécessaire pour structurer automatiquement les données des 2300 patientes a été de moins de 25 minutes avec RUBY versus 30 jours par un ARC en structuration manuelle.
Conclusion |
Les premiers résultats de RUBY sont très encourageants et une nouvelle phase d’annotation est en cours afin d’améliorer les résultats de l’algorithme. Les performances de RUBY sont meilleures sur les CR semi structurés comme PBIO, PCHIR et PANA. Les PCONS sont les plus difficiles à structurer automatiquement car restent médecins-dépendants. Le démonstrateur RUBY a permis de progresser dans la structuration automatique des données du cancer du sein au CAL. Il est maintenant nécessaire d’optimiser les algorithmes afin d’améliorer les performances de RUBY et de déployer cette application à d’autres types de CR et d’autres pathologies puis d’autres établissements.
Le texte complet de cet article est disponible en PDF.Mots clés : Intelligence artificielle, Deep learning, Cancer du sein, Structuration automatique, Python
Plan
Vol 69 - N° S1
P. S11 - juin 2021 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
