Médecine

Paramédical

Autres domaines


S'abonner

A general framework for a reliable multivariate analysis and pattern recognition in high-dimensional epidemiological data, based on cluster robustness: A tutorial to enrich the epidemiologists’ toolkit - 18/01/15

Un cadre général pour la recherche de groupes homogènes à partir de données épidémiologiques de haute dimension, basé sur la robustesse des groupes : un tutoriel pour l’épidémiologiste

Doi : 10.1016/j.respe.2014.12.017 
T. Lefèvre a, b, c, d, e, , P. Chauvin a, b
a Inserm, UMR_S 1136, department of social epidemiology, Pierre-Louis institute of epidemiology and public health, 27, rue de Chaligny, 75012 Paris, France 
b UMR_S 1136, UPMC université Paris 06, Sorbonne universités, 75646 Paris, France 
c Inserm, UMR_S 1101, laboratory of medical information processing, 29609 Brest, France 
d UMR_S 1101, université de Bretagne occidentale, 29609 Brest, France 
e UMR_S 1101, institut Mines-Telecom, Telecom Bretagne, 29609 Brest, France 

Corresponding author. Inserm, UMR_S 1136, department of social epidemiology, Pierre-Louis institute of epidemiology and public health, 27, rue de Chaligny, 75012 Paris, France.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Sous presse. Épreuves corrigées par l'auteur. Disponible en ligne depuis le dimanche 18 janvier 2015
Cet article a été publié dans un numéro de la revue, cliquez ici pour y accéder

Abstract

Background

In an epidemiologist's toolbox, three main types of statistical tools can be found: means and proportions comparisons, linear or logistic regression models and Cox-type regression models. All these techniques have their own multivariate formulations, so that biases can be accounted for. Nonetheless, there is an entire set of natively massive multivariate techniques, which are based on weaker assumptions than classical statistical techniques are, and which seem to be underestimated or remain unknown to most epidemiologists. These techniques are used for pattern recognition or clustering – that is, for retrieving homogeneous groups in data without any a priori about these groups. They are widely used in connex domains such as genetics or biomolecular studies.

Methods

Most clustering techniques require tuning specific parameters so that groups can be identified in data. A critical parameter to set is the number of groups the technique needs to discover. Different approaches to find the optimal number of groups are available, such as the silhouette approach and the robustness approach. This article presents the key aspects of clustering techniques (how proximity between observations is defined and how to find the number of groups), two archetypal techniques (namely the k-means and PAM algorithms) and how they relate to more classical statistical approaches.

Results

Through a theoretical, simple example and a real data application, we provide a complete framework within which classical epidemiological concerns can be reconsidered. We show how to (i) identify whether distinct groups exist in data, (ii) identify the optimal number of groups in data, (iii) label each observation according to its own group and (iv) analyze the groups identified according to separate and explicative data. In addition, how to achieve consistent results while removing sensitivity to initial conditions is explained.

Conclusions

Clustering techniques, in conjunction with methods for parameter tuning, provide the epidemiologist with substantial additional tools. They differ from the usual approaches based on hypothesis-testing because no assumptions are made on the data and these clustering techniques are natively multivariate.

Le texte complet de cet article est disponible en PDF.

Résumé

Position du problème

Les épidémiologistes disposent essentiellement de trois grandes sortes d’outils pour traiter leurs données : les tests de comparaisons de moyenne et de proportions, les modèles de régression linéaire ou logistique et les modèles de survie type modèles de Cox. Tous ces outils possèdent leur formulation multivariée, ce qui permet de contrôler un minimum les biais. Il existe cependant tout un ensemble de techniques nativement multivariées reposant sur des hypothèses moins fortes que les techniques statistiques classiques, et qui semblent demeurer sous-estimées ou mal connues. Ces techniques, dites de clustering ou de classification, sont utilisées pour l’identification de groupes homogènes à partir de données, et ce sans a priori sur ces groupes. Elles sont largement utilisées dans des domaines connexes à l’épidémiologie, comme la génétique.

Méthodes

La majorité des techniques de clustering nécessitent l’ajustement de paramètres qui leur sont spécifiques. Un paramètre particulièrement critique est le nombre de groupes à découvrir dans les données. Différentes approches existent qui permettent de déterminer le nombre optimal de groupes à découvrir, comme l’approche par la silhouette ou par la robustesse. Les auteurs présentent ici les aspects principaux liés aux techniques de clustering (de quelle façon l’on définit la proximité entre deux observations, comment déterminer le nombre de groupes à découvrir), deux techniques archétypiques (les algorithmes des k moyennes et PAM) et comment les articuler aux méthodes statistiques plus classiques.

Résultats

Nous proposons un cadre général de traitement des données à l’aide des techniques de clustering au travers d’un exemple théorique simple puis d’une application sur données réelles. Nous montrons comment (i) déterminer s’il existe des groupes distincts dans les données, (ii) déterminer le nombre optimal de groupes, (iii) labelliser chaque observation selon le groupe auquel elle appartient, (iv) analyser les groupes selon des données séparées, explicatives. Enfin, nous expliquons comment obtenir des groupes consistants en s’affranchissant des problèmes de sensibilité aux conditions initiales.

Conclusions

L’utilisation conjointe de techniques de clustering et de méthodes d’ajustement des paramètres de ces techniques permet d’enrichir les outils classiques de l’épidémiologiste. Ces techniques sont nativement multivariées et diffèrent des approches statistiques basées sur les tests d’hypothèses en ce sens qu’elles ne nécessitent aucun a priori sur les données à étudier.

Le texte complet de cet article est disponible en PDF.

Keywords : Cluster, Epidemiologic methods, Epidemiology, Hypothesis test, Multivariate analysis

Mots clés : Analyse multivariée, Cluster, Épidémiologie, Méthodes épidémiologiques, Test d’hypothèse


Plan


© 2014  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement ou un achat à l’unité.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.