S'abonner

DNA methylation-based machine learning models for classification of oral cancer and potentially malignant lesions: A proof-of-concept study - 12/10/25

Doi : 10.1016/j.jormas.2025.102594 
Gowri Sivaramakrishnan a, , Kannan Sridharan b , Mohammed Abdulla AlMuharraqi c
a Bahrain Defence Force Royal Medical Services, Bahrain 
b Department of Pharmacology and Therapeutics, College of Medicine and Health Sciences, Arabian Gulf University, Bahrain 
c Senior Consultant (Maxillofacial Head and neck Surgery), Dental and Maxillofacial Unit, Bahrain Defence Force Royal Medical Services, Bahrain 

Corresponding author at: Bahrain Defence Force Royal Medical Services, Bahrain. Bahrain Defence Force Royal Medical Services Bahrain

Abstract

Background

Accurate classification of oral squamous cell carcinoma (OSCC) and oral potentially malignant lesions (OPLs) is challenging due to histopathological variability and limited predictive biomarkers. DNA methylation offers a promising molecular signature, but its utility for tissue classification remains underexplored.

Methods

We harmonized publicly available DNA methylation datasets (GSE97784 and GSE204943; n = 142) and selected the top 100 most variable CpG sites (variance 0.074–0.117) for analysis. Eight supervised machine learning (ML) models—logistic regression, random forest (RF), support vector machine (SVM), extreme gradient boosting (XGBoost), k-nearest neighbors (kNN), Naive Bayes, gradient boosting machine (GBM), and neural network (NN)—were trained using 10-fold cross-validation. Principal component analysis was performed to assess data dimensionality.

Results

High-variance CpG sites were predominantly located within gene bodies and clustered on chromosomes 1, 2, and 6. PCA revealed complex, high-dimensional methylation patterns requiring 55 components to capture 90 % of variance. Overall, RF achieved the highest accuracy (78 %) and AUC-ROC (0.84), followed by GBM (76 %) and XGBoost. Tumor and normal tissues were classified with relatively high sensitivity and specificity, while OPLs were difficult to detect, showing low sensitivity (<50 %) across all models. GBM performed best for normal tissue detection, and Naive Bayes slightly outperformed for tumor F1-score, but RF offered the most balanced performance across classes.

Conclusions

Ensemble ML models, particularly RF and GBM, demonstrate proof-of-concept potential for DNA methylation-based classification of oral tissues. While tumor and normal classification is robust, OPL detection remains challenging, highlighting the need for larger, balanced datasets and complementary biomarkers to improve early detection and clinical utility.

Le texte complet de cet article est disponible en PDF.

Keywords : Carcinoma, Squamous Cell, Mouth Neoplasms, Precancerous Conditions, DNA Methylation, Machine Learning, Random Forest Algorithm, Epigenomics .


Plan


© 2025  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 127 - N° 2

Article 102594- mars 2026 Retour au numéro
Article précédent Article précédent
  • Oral bone regeneration and associated complications: A systematic review and meta-analysis
  • Zoé Gaudimier, Samy Tawfik, Charles Kerouanton, Claudine Wulfman, Yohann Flottes
| Article suivant Article suivant
  • Finite element analysis of trans-sutural distraction osteogenesis on the nasomaxillary complex in adolescents with cleft lip and palate
  • Yun He, Zhongxing Wu

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.