BERT-based Natural Language Processing analysis of French CT reports: Application to the measurement of the positivity rate for pulmonary embolism - 18/03/23

Doi : 10.1016/j.redii.2023.100027 
E. Jupin-Delevaux 1 , A. Djahnine 2, 3, F. Talbot 4, A. Richard 4, S. Gouttard 1, A. Mansuy 1, P. Douek 1, 2, S. Si-Mohamed 1, 2, L. Boussel 1, 2
1 Radiology department, Hospices Civils de Lyon - HCL, Lyon, France 
2 CREATIS, Univ Lyon, INSA‐Lyon, Université Claude Bernard Lyon 1, UJM-Saint Etienne, CNRS, Inserm, CREATIS UMR 5220, U1294, Lyon, France 
3 Philips Research France, Suresnes 
4 DSN, Hospices Civils de Lyon - HCL, Lyon, France 

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Sous presse. Manuscrit accepté. Disponible en ligne depuis le Saturday 18 March 2023
Cet article a été publié dans un numéro de la revue, cliquez ici pour y accéder

Highlights

BERT (Bidirectional Encoder Representations from Transformers)-based NLP (Natural Language Processing) model allows obtaining good performances with F1-score > 98% on French thoracic CT reports.
Accuracy of the NLP for identification of pulmonary embolism on CT reports is 99.1%.
15.8% of the CTs requested for suspected pulmonary embolism were positive.

Le texte complet de cet article est disponible en PDF.

Abstract

Rationale and Objectives

: To develop a Natural Language Processing (NLP) method based on Bidirectional Encoder Representations from Transformers (BERT) adapted to French CT reports and to evaluate its performance to calculate the diagnostic yield of CT in patients with clinical suspicion of pulmonary embolism (PE).

Materials and Methods

: All the CT reports performed in our institution in 2019 (99,510 reports, training and validation dataset) and 2018 (94,559 reports, testing dataset) were included after anonymization. Two BERT-based NLP sentence classifiers were trained on 27.700, manually labeled, sentences from the training dataset. The first one aimed to classify the reports’ sentences into three classes ("Non chest”, "Healthy chest“, and "Pathological chest" related sentences), the second one to classify the last class into eleven sub classes pathologies including "pulmonary embolism". F1-score was reported on the validation dataset. These NLP classifiers were then applied to requested CT reports for pulmonary embolism from the testing dataset. Sensitivity, specificity, and accuracy for detection of the presence of a pulmonary embolism were reported in comparison to human analysis of the reports.

Results

: The F1-score for the 3-Classes and 11-SubClasses classifiers was 0.984 and 0.985, respectively. 4,042 examinations from the testing dataset were requested for pulmonary embolism of which 641 (15.8%) were positively evaluated by radiologists. The sensitivity, specificity, and accuracy of the NLP network for identifying pulmonary embolism in these reports were 98.2%, 99.3% and 99.1%, respectively.

Conclusion

: BERT-based NLP sentences classifier enables the analysis of large databases of radiological reports to accurately determine the diagnostic yield of CT screening.

Le texte complet de cet article est disponible en PDF.

Keywords : Natural Language Processing, CT, Pulmonary Embolism


Plan


© 2023  The Author(s). Publié par Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.