revues des maladies respiratoires - Organe officiel de la Société de Pneumologie de Langue Française (SPLF)

Article gratuit !

Revue des Maladies Respiratoires
Vol 22, N° 6  - décembre 2005
pp. 1058-1064
Doi : RMR-12-2005-22-6-0761-8425-101019-200530109
Le modèle de Cox
Cox proportional hazards regression analysis.
 

J.-F. Timsit [1], C. Alberti [2], S. Chevret [3]
[1]  Réanimation Médicale, Groupe d'épidémiologie, U578 INSERM, et Service de réanimation médicale CHU A Michallon, Grenoble, France
[2]  Unité d'Epidémiologie Clinique, INSERM CIE 5, AP-HP, Hôpital Robert Debré, Paris, France.
[3]  Département de Biostatistique et Informatique Médicale, U717 INSERM, AP-HP, Hôpital Saint-Louis, Paris, France.

Tirés à part : J.-F. Timsit [1]

[1] Service de Réanimation Médicale, CHU A Michallon, 38043 Grenoble Cedex.

jf.timsit@outcomerea.org

Lorsque l'on souhaite expliquer le délai de survenue d'un événement « en tout ou rien », par exemple un délai de survie, par une covariable (un traitement, une caractéristique du sujet ou de sa maladie...), on peut dans un premier temps comparer les distributions de ces délais de survie selon la valeur de la covariable. Un test du log-rank permet ensuite de tester l'égalité de ces fonctions de survie.

Cependant il est utile de pouvoir prendre en compte simultanément l'effet de plusieurs covariables. Cela permet, non seulement d'augmenter la puissance par exemple de la comparaison de groupes de traitement en homogénéisant les groupes à comparer sur d'autres covariables, mais aussi d'éliminer les effets néfastes d'éventuels facteurs de confusion connus ou suspectés en « ajustant » la comparaison d'intérêt sur ceux-ci.

Quand il n'est pas possible de contrôler a priori ces covariables en construisant des groupes de patients comparables (par stratification de la randomisation par exemple), il est nécessaire de les contrôler a posteriori lors de l'analyse des données.

Le modèle de Cox permet la prise en compte simultanée de plusieurs variables pour expliquer la survenue d'un événement en tout ou rien, sans faire d'hypothèse sur la forme des fonctions de survie. Ce modèle permet l'identification et l'ajustement sur des variables pronostiques lorsque l'on analyse de telles données, le plus souvent censurées (voir notes précédentes).

Pré requis : notion de risque instantané

Nous nous sommes pour l'instant intéressé dans les notes précédentes [1] à la fonction de survie, S(t). Cette fonction S(t) intègre l'ensemble des événements observés avant t et décrit mal la dynamique instantanée du processus.

La dynamique de ce processus peut s'exprimer sous la forme d'une fonction de risque instantané, traduisant le risque de présenter l'événement sur un intervalle de temps infinitésimal, conditionnellement au fait de ne pas l'avoir présenté auparavant. Cette fonction de risque peut être paramétrable (exprimable sous forme d'une formule mathématique). C'est le cas du modèle exponentiel (qui suppose un risque instantané constant au cours du temps) et du modèle de Weibull.

On peut aussi exprimer cette fonction de manière non paramétrique (sans faire d'hypothèse sur son allure au cours du temps). Le plus souvent, dans ce cas, on estime la fonction de risque instantanée h(t) par un estimateur de Kaplan-Meier :

Pour chaque temps ti, la proportion d'évènements observés est h(ti) = mi/ni où mi est le nombre d'événements observés en ti et ni le nombre de sujets exposés au risque d'événement juste avant ti.

La théorie : définition du modèle de Cox

Le modèle de Cox est une méthode de régression multivariée au même titre que les modèles de régression logistique ou de régression linéaire, qui consistent tous à modéliser le phénomène que l'on étudie, c'est-à-dire la variable Y caractérisant l'événement par une fonction de plusieurs autres variables caractérisant les facteurs de risque et de confusion potentiels, La variable Y est souvent appelée variable dépendante, tandis que les autres sont appelées variables indépendantes (ou prédicteurs).

Le modèle de Cox décrit la fonction de risque instantané (Y) en fonction de prédicteurs. Il exprime la fonction de risque instantané de l'individu i ayant un vecteur de p variables explicatives sous une forme multiplicative

c'est-à-dire comme le produit d'une fonction de risque de base, , commune à tous les individus, et d'une fonction de régression explicitée paramétriquement, , où est un p-vecteur de coefficients de régression inconnus. À noter qu'en anglais, la fonction de risque instantané h(t) se traduit instantaneous hazard.

Ce modèle sous-tend 2 hypothèses

  • Il existe une relation log-linéaire entre fonction de risque instantané et covariables

  • Le rapport des fonctions de risque instantané pour 2 sujets i et j de caractéristiques Zi et Zj ne dépend que de Zi et Zj et ne dépend pas du temps.

C'est-à-dire que les fonctions de risque instantané des deux individus i et j sont proportionnelles, et que leur rapport de proportionnalité ne dépend pas du temps t.

La quantité K représente le rapport des fonctions de risque intantané des individus ayant les caractéristiques Zi et des individus ayant les caractéristiques Zj. C'est le hazard ratio (noté HR) des Anglo-Saxons.

Hazard Ratio (HR) versus Risque Relatif (RR)

On vient de voir que le modèle de Cox mesure des rapports de fonctions de risque « instantané », donc des risques d'événement sur de touts petits intervalles de temps, en faisant l'hypothèse que ces rapports sont constants au cours du temps.

Supposons que l'on s'intéresse à un facteur d'exposition particulier, en notant sa présence E, alors que l'absence d'exposition est notée . Si on suppose que l'événement a une prévalence très faible, alors on peut considérer que le risque relatif est approché par le hazard ratio selon :

Application à la prédiction de survenue d'une pneumonie nosocomiale

Dans un premier temps, nous cherchons à estimer les facteurs prédictifs de la survenue d'une pneumonie nosocomiale. Nous disposons d'un jeu de données provenant de la base de données OUTCOMEREA et utilisé précédemment1.

Ce jeu de données décrit les données de 747 patients ventilés plus de 48 heures. 151 patients ont développé une pneumonie nosocomiale. La date d'origine est le 3e jour de ventilation mécanique. Les patients sont censurés le jour de l'extubation ou au 30e jour de ventilation mécanique. La durée médiane de suivi est de 7 jours.

Le tableau I présente un exemple de données de 8 patients de cette base. Pour décrire la survenue de la pneumopathie nosocomiale, on dispose de deux colonnes, mesurant chez chaque sujet, la durée d'exposition (durée, exprimée en jours), et l'indicatrice de survenue d'une pneumonie (PN = 1 si pneumopathie, 0 sinon). La durée est calculée entre le 3e jour de ventilation mécanique et la date de survenue de l'événement pour ceux ayant présenté une pneumopathie (ex : obs 1005, 1007 à 1010), entre le 3e jour de ventilation mécanique et le jour d'extubation pour ceux n'ayant pas présenté l'événement (ex : obs 1001, 1004 et 1006) et enfin entre le 3e jour de ventilation mécanique et le 30e jour pour les patients non extubés au 30e jour (ex : obs 1003).

Les variables explicatives sont l'âge en années (AGE), le sexe masculin (SEXMASC) et l'utilisation de céphalosporines dans les 48 premières heures d'hospitalisation en réanimation (CEPHALO48).

Commençons par étudier la variable SEXMASC :

D'après (1), un individu de sexe masculin est représenté par la fonction de risque instantané d'avoir une pneumonie nosocomiale suivante :

et pour un individu de sexe féminin :

Le rapport des risques instantanés (hazard ratio ou HR) représente le rapport des fonctions de risque instantané de pneumonie nosocomiale des hommes par rapport aux femmes :

Les logiciels du commerce permettent d'estimer β et son intervalle de confiance.

Dans l'exemple qui nous intéresse, le logiciel SAS estime 0,646 avec un écart type de 0,186 ce qui nous donne un HR = exp(0,646) = 1,91 avec un intervalle de confiance (IC) à 95 % [1,33-2,75], p = 0,0005. Autrement dit, le sexe masculin multiplie par 1,91 le risque instantané d'acquisition d'une pneumonie nosocomiale par rapport à celui des femmes. Le test statististique teste l'hypothèse nulle que 0 (et donc que le HR=exp(0)=1) contre l'hypothèse alternative, . Le test étant significatif au seuil de 5 %, on peut dire que le risque de pneumonie est augmenté de façon significative chez les hommes par rapport aux femmes (et l'on peut remarquer que la valeur 1 est exclue de l'IC à 95 %).

De même, nous pouvons estimer le paramètre pour la variable CEPHALO48 donnant – 0,289 avec un écart type de 0,212. Ceci nous donne un HR = exp (– 0,289) = 0,75 avec un intervalle de confiance à 95 % de (0,49-1,13), p = 0,18. La variable n'a donc pas d'influence statistiquement significative au risque de 5 % sur le risque instantané d'acquisition d'une pneumonie nosocomiale.

Ce résultat est étonnant par rapport aux résultats de la littérature et aux résultats obtenus sur la même base de données qui montraient l'utilisation de céphalosporines dans les 48 premières heures de ventilation protégeait de la survenue de pneumonie nosocomiale précoce... Nous allons en reparler....

Pour les variables quantitatives comme l'âge, l'HR est estimé pour une augmentation d'une unité de la valeur de la variable selon le rapport suivant :

C'est une illustration de l'hypothèse de log-linéarité vue plus haut, qui ne concerne bien sûr que les covariables discrètes (à plus de deux classes) ou continues. Pour la variable AGE le logiciel SAS nous donne

0,0111 avec un écart type de 0,0060, correspondant à un HR = exp(0,0111) = 1,011 avec un intervalle de confiance à 95 % de (0,999-1,023), p = 0,067.

Cet HR correspond à l'augmentation du risque instantané de pneumonie nosocomiale associé à une augmentation de l'âge de 1 unité, et dans notre exemple de 1 an. Ceci a pour conséquence qu'un accroissement de 1 unité de la valeur de l'âge correspond une augmentation du risque instantané de pneumonie, identique que l'on passe de 40 à 41 ans ou de 80 à 81 ans.

Si l'on veut calculer l'HR associé à une augmentation de l'âge de n années, il sera égal à (HRAGE)n soit par exemple pour une augmentation de l'âge de 10 ans 1,011110 = 1,12.

Nous avons estimé pour chaque variable son influence sur le risque instantané d'acquisition d'une pneumonie (méthode dite univariée, référant à l'utilisation d'un facteur de risque dans le modèle, ou parfois bivariée, référant à l'utilisation de 2 variables, l'une dépendante et l'autre indépendante). De la même manière, le modèle permet d'estimer simultanément les valeurs des paramètres pour les 3 variables AGE, CEPHALO48 et SEXMASC (méthode multivariée ou multivariable).

Si nous introduisons les 3 variables dans le modèle.

Pour l'individu i tel que

Le modèle obtenu est représenté dans le tableau II. En d'autres termes, un âge élevé et le sexe masculin sont des facteurs de risque d'acquisition de pneumonie nosocomiale alors que l'utilisation de céphalosporine dans les 48 premières heures n'en est pas un, au risque de 5 %.

Ce résultat pourrait être acceptable, il va cependant à l'encontre des données de la littérature. Vérifions les hypothèses sous jacentes au modèle.

Hypothèse de loglinéarité : application à la variable AGE

Plusieurs méthodes existent pour évaluer l'écart à la log-linéarité des variables continues. Parmi celles-ci, une consiste à analyser l'ensemble des différences entre le risque instantané calculé par le modèle et le risque observé de pneumonie. Elle est basée sur l'analyse des résidus de la martingale dont le calcul complexe ne sera pas détaillé ici. Cette analyse permet d'identifier des écarts importants à la log-linéarité.

Dans la figure 1, les résidus de la martingale d'un modèle contenant SEXMASC et CEPHALO48 sont en ordonnée et la variable AGE en abscisse. La ligne représente la relation entre x et y en utilisant une fonction de lissage (obtenue grâce au logiciel S-Plus). Si la relation est globalement linéaire (représentée par une droite), on peut en déduire qu'il existe une relation log-linéaire entre les valeurs de cette variable et le risque de pneumonie. Dans notre exemple, nous obtenons à peu près une droite et nous n'avons pas d'éléments cliniques pour supposer que la relation entre l'age est la pneumonie ne soit pas log-linéaire. Une telle approche est cependant très peu sensible.

Une autre méthode consiste à découper la variable en classes d'effectifs équivalents comme les quartiles (25e percentile ou Q1, 75e percentile ou Q3) tels que [min, Q1] ; [Q1, médiane] ; [médiane, Q3] ; [Q3, max]. On choisit une classe de référence pour laquelle le HR vaudra 1 et les HR des autres classes seront estimés par rapport à la classe de référence. Ensuite, les HR sont représentés en ordonnée sur un graphe avec les classes d'age par ordre croissant en abscisse. Si une droite passe par les points, on peut raisonnablement accepter la relation log-linéaire entre l'age et le risque de pneumonie.

Dans notre exemple, la figure 2 représente les HR pour les différentes classes d'âge crées. On n'observe pas une augmentation linéaire du HR.

En pratique : Faut-il utiliser des variables continues ou les transformer ?

Il est évident que l'information âge = 22 ans est plus riche que l'information âge ≪ 50 ans. Aussi, si l'on peut raisonnablement accepter l'hypothèse de loglinéarite, la variable doit rester continue. Cette hypothèse a pour conséquences qu'une augmentation de l'age de 5 ans multiplie le risque de pneumonie par exp(5β) que l'on passe de 20 à 25 ans ou de 70 à 75 ans. C'est une hypothèse forte qui n'est généralement pas recommandée.

Si l'on choisit de transformer une variable quantitative continue en une variable à n classes ordonnées, se pose le problème du nombre de classes et du choix des seuils pour découper cette variable. La transformation peut être simple en classes en utilisant la moyenne ou la médiane de la variable continue ou plus complexe en utilisant les tertiles pour un découpage en 3 classes ou les quartiles pour un découpage en 4 classes. L'information la plus réduite est associée au plus petit nombre de classes.

Si on choisit le découpage en 4 classes (information la plus riche), la variable AGE sera recodée selon les modalités suivantes : une classe de référence (par exemple la classe [min, Q1[ et 3 variables binaires z1, z2, z3 telles que

dans notre exemple nous obtenons le tableau III.

L'effet de l'age doit être testé en comparant globalement les coefficients à (0,0, 0).

En effet si l'on teste séparément chaque coefficient, cela revient à estimer l'effet d'une tranche d'âge par rapport à l'ensemble des autres. Cette comparaison a rarement un sens clinique et est la plupart du temps difficile à interpréter.

Pour éviter ce problème, on peut proposer un autre type de recodage en classes emboîtées avec les 3 variables binaires z'1, z'2, z'3 (tableau IV).

Et

Ce type de recodage permet de comparer chaque βi à 0 et de pouvoir les interpréter de façon indépendante.

Dans notre exemple le codage expliqué est représenté dans le tableau V et les résultats de la modélisation dans le tableau VI.

Comme nous utilisons un codage emboîté, la variable CLAGE1 qui seule apporte une information significative au modèle peut être conservée seule.

Etant donné les risques pris en conservant la variable AGE en continu et l'apport pronostique de la variable CLAGE1, nous pouvons construire un modèle simplifié qui n'inclut que CLAGE1, SEXMASC et CEPHALO48 (tableau VII).

Le modèle qui contient la variable binaire CLAGE1 n'est pas comparable facilement avec le modèle qui contient la variable AGE car il s'agit de modèles non emboîtés. Le choix peut soit dépendre de tests statistiques dont l'intérêt est discuté soit et surtout du bon sens clinique. Il peut paraitre plus informatif pour un clinicien d'utiliser et de retenir un seuil pronostique plutôt que de simplement savoir que le risque augmente avec l'âge.

Hypothèse des risques proportionnels

Ce résultat n'est exact que si l'on vérifie que le rapport (c'est le rapport des risques instantanés ou la différence des logarithmes) des risques instantanés de survenue d'une pneumonie est globalement constant au cours du temps. La proportionnalité des risques au cours du temps est difficile à voir sur le graphique de 2 courbes de survie, S(t), correspondant aux deux modalités d'une variable binaire (comme sexe masculin ou féminin). Elle mieux explorée par la fonction y = Log[-Log[S(t)]] (fig. 3).

Pour la variable SEXMASC, et la variable CLAGE1, les 2 courbes sont grossièrement parallèles et l'hypothèse des risques proportionnels semble vérifiée.

Pour la variable CEHALO48 (utilisation de céphalosporines dans les 48 premières heures d'hospitalisation en réanimation), la situation est différente. Dans les temps de suivi précoces, la prise de céphalosporine dans les 48 premières heures semble être associée à un risque moindre de pneumonie alors que plus tardivement, la différence est moins nette, allant même jusqu'à s'inverser (les courbes se croisent).

L'interprétation purement qualitative de cette méthode graphique peut être étayée par des méthodes quantitatives. Les méthodes proposées sont nombreuses [1].

Ceci peut traduire un effet limité dans le temps des céphalosporines. Nous pouvons tester l'hypothèse de la différence de risque au cours du temps en introduisant une variable HRP-CEPHALO qui vaut 0 si le temps t est inférieur à 7 jours (délai médian de suivi) et qui vaut CEPHALO48 au-delà. Le logiciel SAS nous dit alors que l'estimation du coefficient β associé à HRP-CEPHALO vaut 1,113 est qu'il est significativement différent de 0 (p = 0,015). L'hypothèse de la proportionnalité des risques pour la variable CEPHALO48 doit donc être rejetée.

Que faire lorsque l'hypothèse des risques proportionnels n'est pas vérifiée ?
Une stratification sur la variable CEPHALO48

Si l'hypothèse des risques instantanés proportionnels du modèle de Cox n'est pas vérifiée, le modèle que nous avons conçu précédemment est partiellement inexact. Pour l'estimation du hasard ratio associé à la variable CLAGE1 et à la variable SEXMASC, nous pouvons stratifier le modèle de Cox en fonction de la valeur de la variable CEPHALO48. Nous obtenons ainsi une estimation moins biaisée des HR pour AGE et SEXMASC : SEXMASC : HR = 1,93 [1,34 ; 2,79], p = 0,0004 et CLAGE1 : HR = 1,68 [1,08 ; 2,60], p = 0,021 ;

Cependant cette approche permet de prendre en compte la variable CEPHALO48 mais ne permet pas d'en estimer l'impact pronostique.

Une modélisation introduisant une covariable dépendante du temps

Faisons l'hypothèse que l'effet de la prise de céphalosporines à l'admission en réanimation est différent en début d'hospitalisation et en fin d'hospitalisation, il est possible d'écrire un modèle où CEPHALO48 est remplacé par CEPHALO48t qui prend la valeur de CEPHALO48 pendant les 7 premiers jours de suivi et la valeur 0 ensuite. Les résultats du modèle sont dans le tableau VIII.

Ce modèle nous indique que l'usage des céphalosporines dans les 48 heures diminue le risque instantané d'acquérir une pneumonie dans les 7 premiers jours de suivi.

Une modélisation par partie

Nous pouvons aussi considérer séparément l'analyse jusqu'à 7 jours de suivi et l'analyse à partir du 8e jour de suivi. Nous allons donc créer 2 modèles de Cox (tableau IX)

  • le premier recherche les facteurs associés à la survenue d'une pneumonie dans les 7 premiers jours de suivi (les malades encore ventilés sont censurés au 7e jour) ;
  • le deuxième les facteurs associés à la survenue à la pneumonie après les 7 premiers jours de suivi (seul les patients suivis plus de 7 jours et qui n'ont pas encore présenté de pneumonie au 7e jour sont pris en compte).

Cette troisième méthode, plus aisée à expliquer nous dit que l'absence d'utilisation des céphalosporines dans les 48 premières heures de ventilation comme l'âge > 58 ans et le sexe masculin sont des facteurs de risque de pneumonie nosocomiale précoce (survenant dans les 7 premiers jours de suivi).

Par contre, l'utilisation de céphalosporines dans les 48 premières heures de ventilation ne protège pas du tout (voir même le contraire) de la pneumonie nosocomiale survenant plus tardivement (après le 7e jour de suivi).

Comme prévu, le HR pour CLAGE1 et SEXMASC est grossièrement identique pour les deux modèles.

Censure non informative

Une autre hypothèse, commune à toutes les analyses censurées, que nous avions déjà développé lors des notes méthodologiques précédentes, porte sur la nature de la censure. Le modèle de Cox suppose que la censure est non informative. C'est-à-dire que la censure est indépendante du risque d'acquérir un événement. Pour l'exemple qui nous intéresse, la censure la plus courante est la sortie de réanimation. On fait l'hypothèse que le risque instantané de survenue d'une pneumonie nosocomiale pour les individus sortis vivants de réanimation n'est pas modifié par la sortie. Il est donc le même que celui d'un individu encore en réanimation à un temps t donné. Dans notre cas, c'est une hypothèse assez forte cas car on sait que le risque d'acquisition d'une pneumonie nosocomiale chez un patient sorti vivant de réanimation est plus faible que celui d'un individu encore intubé toujours en réanimation.

Il existe probablement une compétition entre le risque de sortir vivant de réanimation et le risque d'acquisition d'une pneumonie. Une extension du modèle de Cox tenant compte de la compétition entre différents risques a été récemment développée est peut être plus adaptée dans ce cas.

Conclusion

Le modèle de Cox est tout à fait adapté à la modélisation multivariées de données censurées. Il convient d'en connaître les hypothèses (loglinéarité des variables, proportionalité des risques, censure non informative) pour l'utiliser et l'interpréter à bon escient. Pour en savoir plus : [2, 3 et 4].

Références

[1]
Bornstain C, Azoulay E, De Lassence A, Cohen Y, Costa MA, Mourvillier B, Descorps-Declere A, Garrouste-Orgeas M, Thuong M, Schlemmer B, Timsit JF ; Outcomerea Study Group : Sedation, sucralfate, and antibiotic use are potential means for protection against early-onset ventilator-associated pneumonia. Clin Infect Dis 2004 ; 38 : 1401-8.
[2]
Collet D : Modelling survival data in medical research. Chapman & Hall, 1994.
[3]
Parmar MKB, Machin D : Survival analysis. J Wiley & sun Ed ; UK 1995.
[4]
Hill C, Com-Nougué C, Kramar A, Moreau T, O'Quigley J, Senoussi R, Chastang C : Analyse statistique des données de survie. Flammarion Médecine et sciences Ed 1996.

1
 NB : Cette interprétation du hazard ratio (HR) comme un risque relatif n'est pas valide lorsque le rapport des fonctions de risque n'est pas constant au cours du temps ou lorsque le risque absolu de l'événement n'est pas faible.
2
NB : la variable cephalo48(t) est une variable dépendante du temps. Dans ce cas l'interprétation du hasard ratio est plus délicate. Celui ci ne peut pas être directement considéré comme un risque relatif.





© 2005 Elsevier Masson SAS. Tous droits réservés.
Accédez directement à un numéro :
  • Résumés du 16ème Congrès de Pneumologie de Langue Française
  • Recommandations pour la pratique clinique du SAHOS de l’adulte (Texte long)
  • Mission ATS 2011 : Les thèmes forts du Congrès américain





Article

PDF
Accès au texte (PDF)
Quel est votre diagnostic ?
Voir la réponse
Opération sous l'égide de la SPLF
La revue RMR est également disponible sur iPhone et iPad grâce à l'application EM-revues. Voir l'application
Site e-commerce : www.elsevier-masson.fr | Service d'aide à la décision clinique : www.em-select.com | Suivez notre actualité sur le blog Elsevier Masson : blog.elsevier-masson.fr
Site pour réussir ses ecn : www.e-ecn.com
EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.
En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.
Fermer
Plan de l'article