S'abonner

P54 - Harnessing the versatility of large language models in oncology research: from data extraction to clinical information retrieval - 12/05/25

Exploiter la polyvalence des grands modèles de langage en recherche oncologique: de l'extraction de données à la récupération d'informations cliniques

Doi : 10.1016/j.jeph.2025.203085 
S. Contu 1, R. Schiappa 1, , J. Ducray 2, C. Sutter 1, E. Chamorey 1
1 Centre Antoine Lacassagne, Departement of Epidemiology, Biostatistic and Health Data, Nice, France 
2 Centre Antoine Lacassagne, Departement of Pharmacy, Nice, France 

Auteur correspondant

Résumé

Background and objective(s)

Large Language Models (LLMs) are emerging as powerful tools in healthcare data processing, yet their application in clinical oncology remains underexplored. This study evaluated LLM's versatility across different oncology-related tasks to assess its potential for clinical data extraction and structuring, while identifying optimal use cases and improvement strategies. Our objectives were to assess the performance of LLMs in data structuring and retrieval, and patients's eligibility identification. At Centre Antoine Lacassagne (CAL), Nice, we've implemented Mixtral and we present four specific use cases and identify potential areas for improvement.

Material and Methods

All scripts were written in python and constituted in two steps. First step was to select eligible documents to look for the information before passing those documents to be read in the second step by Mixtral 8 × 7B where prompts were designed to look for the specific information or task to be performed. Project 1 (P1): external breast biopsy reports text were extracted from PDF files using OCR. Then multiple prompts and loops were organized to automatically structure data from the texts, using rules to allow results only when Mixtral was extracting the expected data (e.g: 0,1+,2+,3+ for HER2 status). Project 2 (P2): selection using ICD10 codes of patients with pulmonary disease (tumor or metastasis) with radiotherapy reports and then using Mixtral to identify patients who underwent pulmonary specific cyberknife radiotherapy. Project 3 (P3): first selecting patients consultations reports and then using Mixtral to code ICD10 metastatic codes. Project 4 (P4): on breast cancer reports already structured by CAL's Natural Language Processing (NLP) method (RUBY) in order to identify HER2 positive patients, using Mixtral to capture HER2 status that were not structured. P1, P2 and P3 were compared to manually structured data as a gold standard. P4 was evaluated based on the number of data retrieved.

Results

The model demonstrated varying degrees of effectiveness across applications. In P1 external breast biopsy reports structuring achieved precision scores ranging from 0.60 to 0.80. In P2, precision, recall and F1-score, were at 0.77 with Mixtral struggling with abbreviation used for specific lung localization (e.g: ml for middle lobe). In P3; metastatic disease detection (i.e: Metastastis: Yes or No) showed robust performance with a precision of 0.88, while metastatic site localization reached 0.83 precision, ICD10 codes generated were not to be trusted and evaluation was performed on the written localization generated by Mixtral. P4: RUBY method identified 582 HER2 positive patients, the use of Mixtral allowed to detect 33 additional previously unstructured data.

Conclusion

This study demonstrates the versatility of LLMs in clinical oncology applications while highlighting the importance of careful use-case selection. The varying precision scores across different tasks suggest that LLMs' effectiveness is context-dependent but also linked to the inherent limitation of Mixtral in very specific area. Future performance improvements may be achieved through enhanced prompt engineering and the implementation of retrieval-augmented generation (RAG), text-augmented generation (TAG), and knowledge-augmented generation (KAG) techniques.

Le texte complet de cet article est disponible en PDF.

Keywords : LLM, artificial intelligence, Clinical research, Oncology, Mixtral



© 2025  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 73 - N° S2

Article 203085- mai 2025 Retour au numéro
Article précédent Article précédent
  • P53 - Definition of high risk of disease recurrence following curative treatment for early-stage hepatocellular carcinoma: a comparison of three approaches
  • C. Giotti, P. Merle, J. Phelip, M. Dhaoui, C. Esnault, M. Moreau, A. Senigout, M. Le Foll-Elfounini, D. Stamenic
| Article suivant Article suivant
  • P55 - Automating patient pre-screening for oncology trials: a Python-based approach to optimize recruitment for the MOIO study in multiple sites
  • R. Schiappa, L. Guillotel, G. Danton, D. Chauviere, A. Gama, M. Marot, B. Campillo-Gimenez, E. Chamorey

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.