Développements de réseaux de neurones pour données censurées et prédiction de survie - 22/05/21
Résumé |
Introduction |
Au cours des dernières années, l’utilisation des réseaux de neurones a connu un essor important dans de multiples domaines et pour diverses applications, en particulier afin de résoudre des problèmes de prédiction ou pour modéliser de façon flexible des interactions complexes et des réponses non-linéaires dans les données. En analyse de survie, l’enjeu est de développer des modèles qui traitent les observations censurées. Ce travail consiste à étudier les performances de perceptrons multi-couches pour les données de survie. Chaque modèle propose une méthode spécifique de traitement de la censure, comme l’utilisation de pseudo-observations ou l’implémentation d’une fonction de perte spécifique.
Méthodes |
Nous comparons différents réseaux de neurones. Cox-CC et CoxTime (Kvamme et al., 2019) s’appuient sur une fonction de perte basée sur l’approximation cas-contrôle. Lee et al. (2018) introduisent DeepHit, dont la fonction de perte associe la log-vraissemblance à une contrainte de rang. DNNSurv (Zhao et al., 2019) contourne le problème de la censure en utilisant des pseudo-observations. Nous proposons également d’autres façons de calculer les pseudo-observations. Ces réseaux de neurones sont comparés à trois modèles de référence : le modèle à risques proportionnels de Cox, avec et sans pénalisation LASSO, les forêts aléatoires de survie (Yshwaran et al., 2019). Les modèles sont comparés pour l’indice de concordance et le score de Brier. Les modèles sont entraînés par une double validation croisée à cinq plis et les hyperparamètres sont sélectionnés par optimisation bayésienne avec une méthode d’estimation à noyau à structure arborescente. La capacité prédictive de ces modèles est analysée sur des données de simulations issues du modèle AFT proposé par Friedman et al. (2001), avec deux niveaux de censure différents (20 % et 60 %). Pour un taux de censure donné, on simule 100 bases de données de 1000 échantillons et 20 variables chacune, avec des interactions par paires et des effets non-linéaires pour des sous-ensembles aléatoires de ces variables. On applique également ces méthodes au jeu de données METABRIC qui porte sur la survie après une chirurgie pour le cancer du sein. Il est composé de 1960 patientes, de six variables cliniques et de l’expression de 1000 gènes. On étudie finalement l’ensemble des modèles sur une base de données qui réunit diverses sources de données portant sur le cancer du poumon. Elle comporte 4120 patients, trois variables cliniques et 1000 expressions de gènes.
Résultats |
Avec les données de simulations, les meilleurs résultats en termes d’indice de concordance et de score de Brier intégré sont obtenus avec le modèle CoxTime pour un taux de censure à 20 %. Avec un taux de censure élevé (60 %), les meilleurs résultats sont obtenus avec les pseudo-observations à temps discrets. Concernant les données METABRIC, les différents modèles de réseaux de neurones permettent d’obtenir des résultats très proches à 5 ans et à 10 ans, avec de meilleurs résultats à 5 ans. Les résultats obtenus avec les forêts aléatoires de survie et le modèle LASSO sont légèrement meilleurs, en particulier à 5 ans. Des résultats détaillés sur les données poumon seront présentés à la conférence.
Conclusion |
Les données de simulations montrent une chute dans les performances lorsque la censure passe de 20 % à 60 %. Les modèles de réseaux de neurones donnent des résultats très proches avec les données METABRIC, quelle que soit la méthode de traitement de la censure utilisée.
Le texte complet de cet article est disponible en PDF.Mots clés : Réseaux de neurones, Survie, Censure, Incertitude
Plan
Vol 69 - N° S1
P. S9-S10 - juin 2021 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.