Évaluation empirique d’une nouvelle méthode multivariée de sélection de variables en classification supervisée : la métrique ? - 07/05/18

Doi : 10.1016/j.respe.2018.03.348

P. Michel ^a,^b,^⁎ , J.-F. Pons ^c, R. Giorgi ^a,^d, S. Delliaux ^e,^f
^a Inserm, IRD, SESSTIM, Sciences économiques & sociales de la santé & traitement de l’information médicale, Aix-Marseille université, Marseille, France
^b CNRS, IM2NP, Aix-Marseille université, université de Toulon, Marseille, France
^c WitMonki SAS, Marseille, France
^d Service biostatistique et technologies de l’information et de la communication, hôpital de La Timone, AP–HM, Marseille, France
^e IRBA, DS-ACI, Aix-Marseille université, Marseille, France
^f Pôle cardiovasculaire, service des explorations fonctionnelles respiratoires, hôpital Nord, AP–HM, Marseille, France

^⁎Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages	2
Iconographies	0
Vidéos	0
Autres	0

Résumé

Introduction

Dans l’analyse de données massives en santé, il est préférable de ne considérer que les variables les plus importantes pour un modèle donné afin de réduire les temps de calcul. Par exemple, pour qualifier l’état physiologique d’un patient à partir de descripteurs de nature médicale, seules les variables les plus pertinentes devraient être conservées afin d’améliorer l’aide à la décision clinique. Cette approche, appelée sélection de variables, peut être envisagée dans la régression ou la classification, de façon supervisée ou non supervisée. De nombreuses méthodes existent, reposant sur différentes approches ou métriques ayant des propriétés mathématiques spécifiques. Dans le cadre de la classification supervisée, une nouvelle méthode de sélection de variables basée sur un indice de séparabilité, la métrique γ a récemment été proposée (Pons et al., 2017). L’objectif de ce travail est d’étudier, de manière empirique, les performances de cette méthode.

Méthodes

La métrique γ mesure la séparabilité entre plusieurs classes d’observations. Elle repose sur le calcul des vecteurs et valeurs propres de la matrice de covariance de chaque classe afin de sélectionner le sous-ensemble de variables qui maximise la séparabilité interclasse. Nous avons comparé cette métrique, par validation croisée, avec des méthodes classiques. Toutes les méthodes ont été appliquées sur trois jeux de données médicales de référence dans le domaine de la prédiction de diagnostic. Pour chaque jeu de données, nous avons évalué l’efficacité de cette méthode vis-à-vis de ses concurrentes, au regard d’indices de performance de classification et du nombre de variables sélectionnées.

Résultats

Le Tableau 1 contient les moyennes des indices de performances obtenues pour chaque jeu de données. Les résultats de la validation croisée font apparaître une meilleure performance de la méthode basée sur la métrique γ, pour deux des trois jeux de données utilisés. Dans le cas des données de patients atteints de cancer, cette méthode est toujours meilleure que ses concurrentes en termes d’indices de performance et améliore le modèle contenant les variables initiales.

Conclusion

Sur ces données empiriques servant régulièrement de banc de test, la métrique γ a obtenu de bonnes performances. Ces résultats préliminaires présentent un intérêt pour la mise en place future de stratégies de diagnostic automatique, basées sur d’autres types de données massives, issues par exemple d’objets connectés.

Le texte complet de cet article est disponible en PDF.

Mots clés : Apprentissage supervisé, Classification, Sélection de variables, État physiologique, Diagnostic automatique

Plan

Déclaration de liens d’intérêt

Export

Vol 66 - N° S3

P. S137-S138 - mai 2018 Retour au numéro

Article précédent

Nouvelle méthode bayésienne de sélection de variables pour des échantillons de petite taille incorporant l’expertise clinique. Application au cancer colorectal
S. Boulet, M. Ursino, P. Thall, A.-S. Jannot, S. Zohara

| Article suivant

Prédiction de la mortalité postopératoire après chirurgie cardiaque : apprentissage automatique versus Euroscore
C. Ferdynus, J. Allyn, P. Montravers

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Évaluation empirique d’une nouvelle méthode multivariée de sélection de variables en classification supervisée : la métrique ? - 07/05/18

Résumé

Introduction

Méthodes

Résultats

Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL