Prise en compte de la confusion non-observée dans les études de cohorte : méthode par variables instrumentales pour exposition transversale et marqueur répété - 22/05/21
Résumé |
Introduction |
La notion de causalité est une question majeure en épidémiologie. Pourtant, la majorité des analyses statistiques classiques s’appuient sur des associations qui ne permettent pas nécessairement d’obtenir une interprétation causale. Pour estimer l’effet causal d’une exposition X sur un évènement d’intérêt Y, différentes méthodes existent comme les analyses pondérées et les régressions ajustées. Mais une des limites de ces méthodes est qu’elles ne prennent pas en considération les facteurs de confusion non-observés. Or, dans beaucoup d’études d’observation, les facteurs de confusion ne sont pas forcément tous mesurés voire certains ne sont pas encore identifiés. Par conséquent, les associations mises en évidence restent sujettes aux biais de confusion ou plus généralement aux problèmes d’endogénéité (ex. causalité inverse). La méthode par variables instrumentales permet de pallier ce biais grâce à l’utilisation d’une variable exogène Z qui, sous certaines hypothèses, permet de recréer le cadre de la randomisation. Lorsque la variable instrumentale est une donnée génétique, on parle alors de randomisation mendélienne. La méthode par variable instrumentale ou randomisation mendélienne a déjà été développée dans de nombreux contextes, toutefois très peu traitent de la situation où la variable d’intérêt Y est répétée.
L’objectif de ce travail est d’introduire la méthode par variables instrumentales au cas d’une exposition transversale et d’une variable d’intérêt répétée dans le temps comme souvent rencontré dans l’analyse des données de cohorte.
Méthodes |
Deux méthodes d’estimation sont proposées et comparées, toutes deux considérant un modèle mixte pour la variable d’intérêt Y répétée. La première utilise l’estimation classique en deux étapes (modèle pour X en fonction de Z, prédiction de X, modèle pour Y en fonction de la prédiction de X). La deuxième estime simultanément les modèles pour X et pour Y à l’aide d’une vraisemblance jointe. Au travers de simulations, les deux méthodes sont évaluées et comparées aux méthodes naïves qui ne tiennent pas compte de la confusion non observée. Les méthodes sont aussi appliquées aux données de la cohorte 3C afin d’étudier la nature de la relation entre le statut diabétique des participants à l’inclusion dans la cohorte et leur évolution cognitive, en utilisant 42 polymorphismes génétiques comme variable instrumentale.
Résultats |
Les résultats de nos simulations confirment qu’en présence de facteurs de confusion omis, la méthode naïve fournit des estimations biaisées de l’effet causal au contraire des méthodes par variables instrumentales. Cependant, nous montrons aussi les limites de ces dernières méthodes lorsqu’elles sont faiblement prédictrices de l’exposition. Appliquée à l’étude de l’association entre diabète et déclin cognitif, nous constatons des résultats opposés entre l’approche par variables instrumentales et les méthodes naïves pouvant être liés à de la confusion non observée ou à des possibles problèmes de causalité inverse.
Conclusion |
Les analyses par variables instrumentales sont une solution intéressante pour appréhender le problème d’endogénéité dans les études épidémiologiques. Elles doivent cependant être utilisées avec précaution car elles reposent sur des hypothèses fortes, notamment sur le caractère totalement exogène de la variable instrumentale et son pouvoir prédictif, qui ne sont pas toujours vérifiables en pratique.
Le texte complet de cet article est disponible en PDF.Mots clés : Causalité, Variable instrumentale, Données répétées, Étude de cohorte, Modèle mixte
Plan
Vol 69 - N° S1
P. S29-S30 - juin 2021 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.