S'abonner

Évaluation empirique d’une nouvelle méthode multivariée de sélection de variables en classification supervisée : la métrique ? - 07/05/18

Doi : 10.1016/j.respe.2018.03.348 
P. Michel a, b, , J.-F. Pons c, R. Giorgi a, d, S. Delliaux e, f
a Inserm, IRD, SESSTIM, Sciences économiques & sociales de la santé & traitement de l’information médicale, Aix-Marseille université, Marseille, France 
b CNRS, IM2NP, Aix-Marseille université, université de Toulon, Marseille, France 
c WitMonki SAS, Marseille, France 
d Service biostatistique et technologies de l’information et de la communication, hôpital de La Timone, AP–HM, Marseille, France 
e IRBA, DS-ACI, Aix-Marseille université, Marseille, France 
f Pôle cardiovasculaire, service des explorations fonctionnelles respiratoires, hôpital Nord, AP–HM, Marseille, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages 2
Iconographies 0
Vidéos 0
Autres 0

Résumé

Introduction

Dans l’analyse de données massives en santé, il est préférable de ne considérer que les variables les plus importantes pour un modèle donné afin de réduire les temps de calcul. Par exemple, pour qualifier l’état physiologique d’un patient à partir de descripteurs de nature médicale, seules les variables les plus pertinentes devraient être conservées afin d’améliorer l’aide à la décision clinique. Cette approche, appelée sélection de variables, peut être envisagée dans la régression ou la classification, de façon supervisée ou non supervisée. De nombreuses méthodes existent, reposant sur différentes approches ou métriques ayant des propriétés mathématiques spécifiques. Dans le cadre de la classification supervisée, une nouvelle méthode de sélection de variables basée sur un indice de séparabilité, la métrique γ a récemment été proposée (Pons et al., 2017). L’objectif de ce travail est d’étudier, de manière empirique, les performances de cette méthode.

Méthodes

La métrique γ mesure la séparabilité entre plusieurs classes d’observations. Elle repose sur le calcul des vecteurs et valeurs propres de la matrice de covariance de chaque classe afin de sélectionner le sous-ensemble de variables qui maximise la séparabilité interclasse. Nous avons comparé cette métrique, par validation croisée, avec des méthodes classiques. Toutes les méthodes ont été appliquées sur trois jeux de données médicales de référence dans le domaine de la prédiction de diagnostic. Pour chaque jeu de données, nous avons évalué l’efficacité de cette méthode vis-à-vis de ses concurrentes, au regard d’indices de performance de classification et du nombre de variables sélectionnées.

Résultats

Le Tableau 1 contient les moyennes des indices de performances obtenues pour chaque jeu de données. Les résultats de la validation croisée font apparaître une meilleure performance de la méthode basée sur la métrique γ, pour deux des trois jeux de données utilisés. Dans le cas des données de patients atteints de cancer, cette méthode est toujours meilleure que ses concurrentes en termes d’indices de performance et améliore le modèle contenant les variables initiales.

Conclusion

Sur ces données empiriques servant régulièrement de banc de test, la métrique γ a obtenu de bonnes performances. Ces résultats préliminaires présentent un intérêt pour la mise en place future de stratégies de diagnostic automatique, basées sur d’autres types de données massives, issues par exemple d’objets connectés.

Le texte complet de cet article est disponible en PDF.

Mots clés : Apprentissage supervisé, Classification, Sélection de variables, État physiologique, Diagnostic automatique


Plan


© 2018  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 66 - N° S3

P. S137-S138 - mai 2018 Retour au numéro
Article précédent Article précédent
  • Nouvelle méthode bayésienne de sélection de variables pour des échantillons de petite taille incorporant l’expertise clinique. Application au cancer colorectal
  • S. Boulet, M. Ursino, P. Thall, A.-S. Jannot, S. Zohara
| Article suivant Article suivant
  • Prédiction de la mortalité postopératoire après chirurgie cardiaque : apprentissage automatique versus Euroscore
  • C. Ferdynus, J. Allyn, P. Montravers

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.