A general framework for a reliable multivariate analysis and pattern recognition in high-dimensional epidemiological data, based on cluster robustness: A tutorial to enrich the epidemiologists’ toolkit - 18/01/15

Un cadre général pour la recherche de groupes homogènes à partir de données épidémiologiques de haute dimension, basé sur la robustesse des groupes : un tutoriel pour l’épidémiologiste

Doi : 10.1016/j.respe.2014.12.017

T. Lefèvre ^a,^b,^c,^d,^e,^⁎ , P. Chauvin ^a,^b
^a Inserm, UMR_S 1136, department of social epidemiology, Pierre-Louis institute of epidemiology and public health, 27, rue de Chaligny, 75012 Paris, France
^b UMR_S 1136, UPMC université Paris 06, Sorbonne universités, 75646 Paris, France
^c Inserm, UMR_S 1101, laboratory of medical information processing, 29609 Brest, France
^d UMR_S 1101, université de Bretagne occidentale, 29609 Brest, France
^e UMR_S 1101, institut Mines-Telecom, Telecom Bretagne, 29609 Brest, France

^⁎Corresponding author. Inserm, UMR_S 1136, department of social epidemiology, Pierre-Louis institute of epidemiology and public health, 27, rue de Chaligny, 75012 Paris, France.

conectar o crear una cuenta

Bienvenido a EM-consulte, la referencia de los profesionales de la salud.
Artículo gratuito.

Conéctese para beneficiarse!

En prensa. Pruebas corregidas por el autor. Disponible en línea desde el Sunday 18 January 2015
This article has been published in an issue click here to access

Abstract

Background

In an epidemiologist's toolbox, three main types of statistical tools can be found: means and proportions comparisons, linear or logistic regression models and Cox-type regression models. All these techniques have their own multivariate formulations, so that biases can be accounted for. Nonetheless, there is an entire set of natively massive multivariate techniques, which are based on weaker assumptions than classical statistical techniques are, and which seem to be underestimated or remain unknown to most epidemiologists. These techniques are used for pattern recognition or clustering – that is, for retrieving homogeneous groups in data without any a priori about these groups. They are widely used in connex domains such as genetics or biomolecular studies.

Methods

Most clustering techniques require tuning specific parameters so that groups can be identified in data. A critical parameter to set is the number of groups the technique needs to discover. Different approaches to find the optimal number of groups are available, such as the silhouette approach and the robustness approach. This article presents the key aspects of clustering techniques (how proximity between observations is defined and how to find the number of groups), two archetypal techniques (namely the k-means and PAM algorithms) and how they relate to more classical statistical approaches.

Results

Through a theoretical, simple example and a real data application, we provide a complete framework within which classical epidemiological concerns can be reconsidered. We show how to (i) identify whether distinct groups exist in data, (ii) identify the optimal number of groups in data, (iii) label each observation according to its own group and (iv) analyze the groups identified according to separate and explicative data. In addition, how to achieve consistent results while removing sensitivity to initial conditions is explained.

Conclusions

Clustering techniques, in conjunction with methods for parameter tuning, provide the epidemiologist with substantial additional tools. They differ from the usual approaches based on hypothesis-testing because no assumptions are made on the data and these clustering techniques are natively multivariate.

El texto completo de este artículo está disponible en PDF.

Résumé

Position du problème

Les épidémiologistes disposent essentiellement de trois grandes sortes d’outils pour traiter leurs données : les tests de comparaisons de moyenne et de proportions, les modèles de régression linéaire ou logistique et les modèles de survie type modèles de Cox. Tous ces outils possèdent leur formulation multivariée, ce qui permet de contrôler un minimum les biais. Il existe cependant tout un ensemble de techniques nativement multivariées reposant sur des hypothèses moins fortes que les techniques statistiques classiques, et qui semblent demeurer sous-estimées ou mal connues. Ces techniques, dites de clustering ou de classification, sont utilisées pour l’identification de groupes homogènes à partir de données, et ce sans a priori sur ces groupes. Elles sont largement utilisées dans des domaines connexes à l’épidémiologie, comme la génétique.

Méthodes

La majorité des techniques de clustering nécessitent l’ajustement de paramètres qui leur sont spécifiques. Un paramètre particulièrement critique est le nombre de groupes à découvrir dans les données. Différentes approches existent qui permettent de déterminer le nombre optimal de groupes à découvrir, comme l’approche par la silhouette ou par la robustesse. Les auteurs présentent ici les aspects principaux liés aux techniques de clustering (de quelle façon l’on définit la proximité entre deux observations, comment déterminer le nombre de groupes à découvrir), deux techniques archétypiques (les algorithmes des k moyennes et PAM) et comment les articuler aux méthodes statistiques plus classiques.

Résultats

Nous proposons un cadre général de traitement des données à l’aide des techniques de clustering au travers d’un exemple théorique simple puis d’une application sur données réelles. Nous montrons comment (i) déterminer s’il existe des groupes distincts dans les données, (ii) déterminer le nombre optimal de groupes, (iii) labelliser chaque observation selon le groupe auquel elle appartient, (iv) analyser les groupes selon des données séparées, explicatives. Enfin, nous expliquons comment obtenir des groupes consistants en s’affranchissant des problèmes de sensibilité aux conditions initiales.

Conclusions

L’utilisation conjointe de techniques de clustering et de méthodes d’ajustement des paramètres de ces techniques permet d’enrichir les outils classiques de l’épidémiologiste. Ces techniques sont nativement multivariées et diffèrent des approches statistiques basées sur les tests d’hypothèses en ce sens qu’elles ne nécessitent aucun a priori sur les données à étudier.

El texto completo de este artículo está disponible en PDF.

Keywords : Cluster, Epidemiologic methods, Epidemiology, Hypothesis test, Multivariate analysis

Mots clés : Analyse multivariée, Cluster, Épidémiologie, Méthodes épidémiologiques, Test d’hypothèse