Comparaison de différentes méthodes d’apprentissage non-supervisées dans le cas de données de grandes dimensions. Application dans le cancer du sein - 19/04/19

Doi : 10.1016/j.respe.2019.03.102

J. Gal ^a,^⁎ , C. Bailleux ^c, D. Chardin ^b, T. Pourcher ^d, R. Schiappa ^a, J. Gilhodes ^e, O. Humbert ^b, E. Chamorey ^a
^a Centre Antoine Lacassagne, Unité d’épidémiologie et de biostatistiques, Nice, France
^b Centre Antoine Lacassagne, Département de médecine nucléaire, Nice, France
^c Centre Antoine Lacassagne, Département d’oncologie médicale, Nice, France
^d Faculté de médecine, Transporteurs, imagerie et radiothérapie en Oncologie UMR E-4320, laboratoire de biophysique, Université Côte d’Azur, Nice, France
^e Institut Claudius-Regaud, Département de biostatistiques, Toulouse, France

^⁎Auteur correspondant.

connectez-vous ou créez un compte

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Le traitement des cancers du sein est guidé par deux classifications: la classification traditionnelle reposant sur le TNM, les facteurs histologiques ainsi que certains autres marqueurs et la classification moléculaire issue de la transcriptomique qui introduit la notion de cancer du sein luminal A/B, HER2 et basal-like. Cette dernière a été obtenue à l’aide d’analyses non-supervisées. La métabolomique, étudie l’ensemble des métabolites primaires, elle permet de mieux comprendre les perturbations des voies du métabolisme de la cellule tumorale, et ainsi de mieux comprendre l’oncogenèse. Tout comme la transcriptomique, la métabolomique génère des données de grandes dimensions. L’objectif de ce travail est de mettre en évidence des signatures métabolomiques de cancer du sein obtenues par différentes méthodes d’apprentissage non-supervisées.

Méthodes

Rétrospectivement, 52 patientes atteintes d’un cancer du sein et traitées par chimiothérapie adjuvante entre 2013 et 2016 ont été incluses. Les échantillons tumoraux ont été analysés par chromatographie liquide haute pression et spectromètre de masse permettant d’identifier 1300 métabolites. Cinq méthodes d’apprentissage non-supervisées ont été comparées : PCA-Kmeans, Sparcl, SIMLR, Spectral clustering et K-sparse. Le nombre de clusters optimal a été évalué par la méthode gap statistic et l’algorithme t-sne a permis leur représentation visuelle. La séparabilité et l’homogénéité des clusters ont été évaluées à l’aide de l’indice de silhouette (IS). Nous avons analysé les différences clinico-biologiques retrouvées entre les clusters identifiés par chaque méthode. Puis, nous avons comparés les taux de métabolites retrouvés dans chaque cluster pour les cinq méthodes.

Résultats

Pour chacune des cinq méthodes, trois clusters ont été identifiés. Les méthodes K-sparse et SIMLR sont les plus discriminantes avec des IS de 0,84 et 0,85 respectivement. Pour ces deux méthodes, des différences significatives inter-cluster ont été retrouvées pour les variables clinico-biologiques suivantes : stade et phénotype tumoral, grade histologique et ki-67. Les signatures métabolomiques obtenues avec K-sparse et SIMLR avaient retenues 42/1300 (3,2 %) et 55/1300 (4,2 %) métabolites respectivement, parmi lesquels, 28/42 (66,7 %) et 26/55 (47,3 %) métabolites montraient des concentrations significativement différentes entre cluster. Pour les deux méthodes, les patientes associées au cluster avec les facteurs histopronostiques les plus défavorables présentaient une variation de concentration significative des acides aminés fondamentaux : L-méthionine, L-phénylalanine, L-histidine, glutathion, L-glutamate et de la glycérophosphocholine.

Conclusion

Nos résultats ont montré qu’il était possible d’utiliser les méthodes d’apprentissage non-supervisées sur des données de métabolomique et de mettre en évidence des clusters de patients identifiés sur des acides aminés protéinogènes. K-sparse et SIMLR semblent être les méthodes les plus discriminantes, elles mettent en évidence trois populations dont les caractéristiques clinico-biologiques standards sont distinctes. Cette classification métabolomique est en cours de validation sur une cohorte externe de 70 patientes. La métabolomique semble être un outil pertinent et prometteur dans la classification des cancers du sein, cependant, la pertinence clinique de cette signature ainsi que son utilité dans la stratégie thérapeutique devront être évaluées précisément.

Le texte complet de cet article est disponible en PDF.

Mots clés : Apprentissage non supervisé, Métabolomique, Données de grandes dimensions, Cancer du sein

Plan

Déclaration de liens d’intérêts

Export

Vol 67 - N° S3

P. S135 - mai 2019 Retour au numéro

Article précédent

Pleiotropic mapping for genome-wide association studies using group variable selection
B. Liquet

| Article suivant

Calcul du nombre de sujets nécessaire dans le contexte d’analyse du microbiome
R. Coueron, H. Savel, B.P. Hejblum

Bienvenue sur EM-consulte, la référence des professionnels de santé.

connectez-vous ou créez un compte

Comparaison de différentes méthodes d’apprentissage non-supervisées dans le cas de données de grandes dimensions. Application dans le cancer du sein - 19/04/19

Résumé

Introduction

Méthodes

Résultats

Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL