Comparaison de différentes méthodes d’apprentissage non-supervisées dans le cas de données de grandes dimensions. Application dans le cancer du sein - 19/04/19
Résumé |
Introduction |
Le traitement des cancers du sein est guidé par deux classifications: la classification traditionnelle reposant sur le TNM, les facteurs histologiques ainsi que certains autres marqueurs et la classification moléculaire issue de la transcriptomique qui introduit la notion de cancer du sein luminal A/B, HER2 et basal-like. Cette dernière a été obtenue à l’aide d’analyses non-supervisées. La métabolomique, étudie l’ensemble des métabolites primaires, elle permet de mieux comprendre les perturbations des voies du métabolisme de la cellule tumorale, et ainsi de mieux comprendre l’oncogenèse. Tout comme la transcriptomique, la métabolomique génère des données de grandes dimensions. L’objectif de ce travail est de mettre en évidence des signatures métabolomiques de cancer du sein obtenues par différentes méthodes d’apprentissage non-supervisées.
Méthodes |
Rétrospectivement, 52 patientes atteintes d’un cancer du sein et traitées par chimiothérapie adjuvante entre 2013 et 2016 ont été incluses. Les échantillons tumoraux ont été analysés par chromatographie liquide haute pression et spectromètre de masse permettant d’identifier 1300 métabolites. Cinq méthodes d’apprentissage non-supervisées ont été comparées : PCA-Kmeans, Sparcl, SIMLR, Spectral clustering et K-sparse. Le nombre de clusters optimal a été évalué par la méthode gap statistic et l’algorithme t-sne a permis leur représentation visuelle. La séparabilité et l’homogénéité des clusters ont été évaluées à l’aide de l’indice de silhouette (IS). Nous avons analysé les différences clinico-biologiques retrouvées entre les clusters identifiés par chaque méthode. Puis, nous avons comparés les taux de métabolites retrouvés dans chaque cluster pour les cinq méthodes.
Résultats |
Pour chacune des cinq méthodes, trois clusters ont été identifiés. Les méthodes K-sparse et SIMLR sont les plus discriminantes avec des IS de 0,84 et 0,85 respectivement. Pour ces deux méthodes, des différences significatives inter-cluster ont été retrouvées pour les variables clinico-biologiques suivantes : stade et phénotype tumoral, grade histologique et ki-67. Les signatures métabolomiques obtenues avec K-sparse et SIMLR avaient retenues 42/1300 (3,2 %) et 55/1300 (4,2 %) métabolites respectivement, parmi lesquels, 28/42 (66,7 %) et 26/55 (47,3 %) métabolites montraient des concentrations significativement différentes entre cluster. Pour les deux méthodes, les patientes associées au cluster avec les facteurs histopronostiques les plus défavorables présentaient une variation de concentration significative des acides aminés fondamentaux : L-méthionine, L-phénylalanine, L-histidine, glutathion, L-glutamate et de la glycérophosphocholine.
Conclusion |
Nos résultats ont montré qu’il était possible d’utiliser les méthodes d’apprentissage non-supervisées sur des données de métabolomique et de mettre en évidence des clusters de patients identifiés sur des acides aminés protéinogènes. K-sparse et SIMLR semblent être les méthodes les plus discriminantes, elles mettent en évidence trois populations dont les caractéristiques clinico-biologiques standards sont distinctes. Cette classification métabolomique est en cours de validation sur une cohorte externe de 70 patientes. La métabolomique semble être un outil pertinent et prometteur dans la classification des cancers du sein, cependant, la pertinence clinique de cette signature ainsi que son utilité dans la stratégie thérapeutique devront être évaluées précisément.
Le texte complet de cet article est disponible en PDF.Mots clés : Apprentissage non supervisé, Métabolomique, Données de grandes dimensions, Cancer du sein
Plan
Vol 67 - N° S3
P. S135 - mai 2019 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.