Évaluation empirique d’une nouvelle méthode multivariée de sélection de variables en classification supervisée : la métrique ? - 07/05/18
pages | 2 |
Iconographies | 0 |
Vidéos | 0 |
Autres | 0 |
Résumé |
Introduction |
Dans l’analyse de données massives en santé, il est préférable de ne considérer que les variables les plus importantes pour un modèle donné afin de réduire les temps de calcul. Par exemple, pour qualifier l’état physiologique d’un patient à partir de descripteurs de nature médicale, seules les variables les plus pertinentes devraient être conservées afin d’améliorer l’aide à la décision clinique. Cette approche, appelée sélection de variables, peut être envisagée dans la régression ou la classification, de façon supervisée ou non supervisée. De nombreuses méthodes existent, reposant sur différentes approches ou métriques ayant des propriétés mathématiques spécifiques. Dans le cadre de la classification supervisée, une nouvelle méthode de sélection de variables basée sur un indice de séparabilité, la métrique γ a récemment été proposée (Pons et al., 2017). L’objectif de ce travail est d’étudier, de manière empirique, les performances de cette méthode.
Méthodes |
La métrique γ mesure la séparabilité entre plusieurs classes d’observations. Elle repose sur le calcul des vecteurs et valeurs propres de la matrice de covariance de chaque classe afin de sélectionner le sous-ensemble de variables qui maximise la séparabilité interclasse. Nous avons comparé cette métrique, par validation croisée, avec des méthodes classiques. Toutes les méthodes ont été appliquées sur trois jeux de données médicales de référence dans le domaine de la prédiction de diagnostic. Pour chaque jeu de données, nous avons évalué l’efficacité de cette méthode vis-à-vis de ses concurrentes, au regard d’indices de performance de classification et du nombre de variables sélectionnées.
Résultats |
Le Tableau 1 contient les moyennes des indices de performances obtenues pour chaque jeu de données. Les résultats de la validation croisée font apparaître une meilleure performance de la méthode basée sur la métrique γ, pour deux des trois jeux de données utilisés. Dans le cas des données de patients atteints de cancer, cette méthode est toujours meilleure que ses concurrentes en termes d’indices de performance et améliore le modèle contenant les variables initiales.
Conclusion |
Sur ces données empiriques servant régulièrement de banc de test, la métrique γ a obtenu de bonnes performances. Ces résultats préliminaires présentent un intérêt pour la mise en place future de stratégies de diagnostic automatique, basées sur d’autres types de données massives, issues par exemple d’objets connectés.
Le texte complet de cet article est disponible en PDF.Mots clés : Apprentissage supervisé, Classification, Sélection de variables, État physiologique, Diagnostic automatique
Plan
Vol 66 - N° S3
P. S137-S138 - mai 2018 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?