revues des maladies respiratoires - Organe officiel de la Société de Pneumologie de Langue Française (SPLF)

Article gratuit !

Revue des Maladies Respiratoires
Vol 20, N° 3-C1  - juin 2003
pp. 425-427
Doi : RMR-06-2003-20-3-0761-8425-101019-ART18
Que veut dire « statistiquement significatif » ?
What does "statistically significant" mean?
 

C. Mélot [1]
[1]  Département de Soins Intensifs, Hôpital Erasme, Université Libre de Bruxelles, Bruxelles, Belgique.

Tirés à part : C. Mélot [1]

[1]  Service des soins intensifs, Hôpital Erasme, Université libre de Bruxelles, Route de Lennik 808, B-1070 Bruxelles, Belgique.

Un peu d'histoire...

En médecine, comme dans d'autres disciplines scientifiques, un consensus s'est fait pour considérer qu'une différence est « statistiquement significative » si le hasard a moins de 5 chances sur 100 (p < 0,05) d'expliquer les différences observées. Cette valeur est arbitraire et est devenue mythique pour beaucoup d'entre nous car nous préférons publier des résultats significatifs.... Historiquement, James Bernouilli (1654-1705) faisait la distinction entre la certitude absolue et la certitude morale et son corollaire l'impossibilité morale (notre valeur de p actuelle). Il fixait le niveau de certitude morale à 99/100 ou 999/1000 c'est-à-dire l'impossibilité morale à 0,01 ou 0,001 (notre valeur de p) [1]. L'idée générale d'utiliser la théorie des probabilités pour distinguer entre le hasard et le dessein (d'origine divine ou autre) a été formulée par de Moivre (1667-1754) [2]. Daniel Bernouilli (1700-1782) a testé la distribution de l'inclinaison des orbites des planètes du système solaire pour déterminer s'il s'agissait d'un phénomène lié au hasard ou non. Il a trouvé une probabilité de 1/1419857. Cette probabilité infinitésimale l'a poussé à rejeter l'hypothèse du hasard considérant cette probabilité significative [3]. De même, pour prouver que la disposition actuelle des planètes du système solaire est due à une cause régulière, Laplace (1749-1827) va démontrer que la probabilité que la chance soit la seule explication est infiniment petite (p = 1/32768) et rejette le hasard comme explication [4]. En 1812, s'intéressant à l'inclinaison des comètes il trouve pour les 100 comètes connuesà l'époque, une probabilité p = 0.263 que la chance seule explique l'inclinaison et considère cette probabilité comme non significative pour rechercher une autre explication que le hasard. Buffon (1707-1788) en discutant la probabilité pour un homme de âgé de 56 ans de mourir dans les 24 heures (p = 1/10190) estima cette probabilité si petite qu'il considéra qu'il s'agissait d'une impossibilité (il avait lui-même 56 ans !). Dans d'autres problèmes, Buffon considéra que les probabilités inférieures à 1/1024 pouvaient être assimilées à zéro, c'est-à-dire négligées. Dans son essai (1785) Condorcet (1743-1794) critiqua Buffon pour son choix arbitraire et recommanda de ne pas fixer de limite précise aux probabilités et suggéra de moduler le seuil de signification en fonction « des inconvénients auxquels une erreur peut conduire et ceux qui peuvent résulter d'une indécision qui empêche l'action » [5]. Cette citation est la règle la plus raisonnable formulée pour l'époque au sujet de « l'impossibilité morale ».

C'est Fisher (1860-1962) qui en 1925 utilise les niveaux de signification de 5 % et de 1 % et qui a institutionnalisé ces valeurs seuils de p. Il suggéra de donner à p = 0,05 son statut spécial dans son fameux livre Statistical methods for research workers (1 re édition, 1925) [6]: « The value for which p=0,05 is 1,96 or nearly 2, it is convenient to take this point as a limit in judging whether a deviation ought to be considered significant or not. » La petite histoire raconte que le seuil de 5 % avait sa préférence car il percevait 5 % de royalties sur ses publications. Cependant lui-même n'a pas été cohérent dans son seuil de signification qu'il a discuté dans ses publications comme pouvant se situer entre p = 0,10 et p = 0,02. À la fin de sa vie, Fisher (1956) a d'ailleurs formulé une règle similaire à celle de Condorcet : « No scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses ; he rather gives his mind to each particuliar case in the light of his evidence and his ideas. » [5].

Différence significative et probabilité que l'hypothèse nulle soit vraie

Il est impossible de comparer deux mesures (par exemple la proportion de décès dans le groupe traité et celle du groupe pacebo) dans l'ensemble de la population des patients concernés. Il est donc nécessaire de choisir un échantillon de cette population, dans l'espoir que les mesures dans l'échantillon représenteront la réalité de l'ensemble des patients. Toutefois, les caprices du hasard peuvent faire que l'on obtienne un échantillon particulier qui ne partage pas les caractéristiques de l'ensemble. Ceci peut avoir deux conséquences : 1) l'erreur (α) (ou risque de première espèce) qui consiste à conclure à tort qu'un traitement est meilleur qu'un autre ou qu'un facteur de risque est lié à une maladie, alors que le hasard est responsable des différences observées (fluctuations d'échantillonnage) ; 2) l'erreur bêta (ß) (ou risque de deuxième espèce) qui consiste à conclure à tort qu'il n'y a pas de différence entre deux traitements lorsqu'il y en a une en réalité. Le principe général des tests statistiques (tests d'hypothèse) repose sur la formulation d'une hypothèse nulle (Ho : m 1 = m 2 , égalité de deux moyennes ; Ho : p 1 = p 2 , égalité de deux proportions) que l'on cherche à rejeter au profit de l'hypothèse alternative (Ha : m 1 [ne] m 2 ; Ha : p 1 [ne] p 2 ). L'hypothèse nulle sous-tend l'absence de différence entre les deux échantillons. Rejeter l'hypothèse nulle, c'est accepter qu'il existe une différence significative entre les deux échantillons. Il n'est ainsi pas vrai qu'une différence significative veut dire que l'hypothèse nulle a moins de 5 % de chances d'être vraie. La principale raison est que cela n'a en général pas de sens de parler de la probabilité que Ho soit vraie. Ho est en réalité vraie ou fausse, mais n'a pas de probabilité d'être vraie. Ce que l'on peut calculer, en revanche, c'est la probabilité de faire telle ou telle observation si Ho est vraie.

Il faut par ailleurs remarquer que le risque d'erreur α est, par définition, égal à la probabilité de rejeter Ho si Ho est vraie, mais ne donne aucune indication sur la probabilité que Ho soit vraie si on rejette Ho (c'est-à-dire si la différence est significative). Pour s'en convaincre, on peut réfléchir à un exemple simple : la probabilité d'être mort après une chute du vingtième étage est proche de 100 %. Cela ne donne pour autant aucune indication sur la probabilité d'être tombé du vingtième étage si on est retrouvé mort, cette probabilité est vraisemblablement très faible, c'est-à-dire éloignée de 100 %. Le même raisonnement peut être tenu pour le degré de signification (valeur de p) : il n'indique pas la probabilité que Ho soit vraie. La théorie présentée ici (où cela n'a pas de sens de parler de la probabilité que Ho soit vraie) et sur laquelle sont fondées toutes les statistiques classiques porte le nom de théorie fréquentiste. Il existe une autre théorie, dite bayésienne, où une distribution de probabilité est associée aux hypothèses Ho et Ha.

Différence significative et importance de la différence

L'expression « différence significative » est souvent employée dans le milieu médical pour désigner une différence importante sur le plan quantitatif, c'est-à-dire une différence qui doit être prise en compte dans la pratique. On voit, en analysant la formule générale du calcul de la statistique du test de t, par exemple, qu'une même différence observée entre deux moyennes (m 1 -m 2 ) conduira à un test significatif ou non (à noter qu'il y a une relation inverse entre la valeur de t et celle de p : plus t est élevé, plus il y a un rapport en faveur du « signal » par rapport au « bruit », plus la valeur de p est petite) selon la valeur de n 1 et de n 2 , c'est-à-dire la taille des échantillons :

Selon la taille de l'échantillon, il y a donc des situations où l'on rejette l'hypothèse nulle alors que l'écart entre m 1 et m 2 est petit, et d'autres où on ne rejette pas cette hypothèse alors que l'écart est grand. Il faut donc analyser les résultats en deux temps : d'un point de vue statistique en déclarant la différence statistiquement significative et d'un point de vue médical en analysant l'importance de la différence absolue observée. Ainsi tout ce qui statistiquement significatif n'est pas important pour notre pratique médicale.

Jugement de signification et jugement de causalité

L'interprétation des résultats comprend deux étapes principales : un jugement de signification qui s'appuie sur l'analyse statistique des résultats observés sur les échantillons et un jugement de causalité dont l'objet est de déterminer les causes des différences observées. Ne pas oublier que lorsqu'on rejette l'hypothèse nulle (les deux traitements sont différents) on fait souvent un raccourci dans notre raisonnement en déclarant que la différence observée est due de manière causale au traitement testé par rapport au placebo.

Interpréter la valeur de p

En fait le raisonnement devrait être : la valeur de p me donne la probabilité que le hasard explique une différence égale ou supérieure à celle que j'ai observée entre mes deux échantillons, lorsque l'hypothèse nulle est vraie. Si cette probabilité est inférieure à 5 %, je déclare que le hasard seul (c'est-à-dire, les fluctuations d'échantillonnage) ne suffit pas à expliquer la différence observée et je conclus, en faisant un raisonnement par l'absurde en quelque sorte, que si ce n'est pas le hasard c'est donc le nouveau traitement appliqué qui est à l'origine de la différence observée. Ce pourrait être tout autre chose comme par exemple une différence de susceptibilité génétique au traitement entre les deux groupes. C'est pourquoi, il faut randomiser c'est-à-dire répartir au hasard les traitements comparés pour équilibrer les deux groupes pour les facteurs connus et inconnus susceptibles d'influencer les résultats. Dans ce cas, il est légitime de conclure que vraisemblablement la différence est expliquée par la seule différence introduite entre les groupes c'est-à-dire les traitements administrés. Si la randomisation n'est pas possible on utilisera des techniques d'ajustement qui ne pourront prendre en compte que les facteurs connus bien évidemment.

Valeur de p et seuil de signification alpha

Le seuil de signification ou erreur de première espèce ( fig. 1) est le risque que l'on accepte a priori . Il est défini avant la réalisation de l'essai clinique. C'est le risque de se tromper en déclarant qu'il y a une différence alors qu'en réalité il n'y en a pas.

La valeur de p est obtenue a posteriori lorsque l'essai clinique est terminé. Elle mesure la probabilité que le hasard explique une différence égale ou supérieure à celle observée. Il s'agit en fait de la « mesure » de l'erreur qui consiste à attribuer aux traitements des différences qui peuvent s'expliquer par le hasard seul (fluctuations d'échantillonnage). Dans l'exemple de la figure 1, les résultats du test statistique ont conclu à une valeur de p = 0,032, valeur inférieure au seuil de signification choisi a priori . Le résultat est donc déclaré significatif d'un point de vue statistique.

Références

[1]
Bernouilli J : Ars conjectandi. 1713.
[2]
de Moivre A : The doctrine of chance or a method of calculating the probability of events in play. 1718.
[3]
Bernouilli D : Recherches physiques et astronomiques sur le problème proposé pour la seconde fois par l'Académie Royale des Sciences de Paris : quelle est la cause physique de l'inclinaison des plans des orbites des planètes par rapport au plan de l'équateur de la révolution du soleil autour de son axe ? 1735.
[4]
Laplace PS : Théorie analytique des probabilités. 1812.
[5]
Hald A : A History of Mathematical Statistics from 1750 to 1930. New York : John Wiley & Sons Inc., 1998 : 776p.
[6]
Fisher RA : Statistical Methods for Research Workers, 12 th edition. Edinburgh : Oliver & Boyd, 1954 : 339p.




© 2003 Elsevier Masson SAS. Tous droits réservés.
Accédez directement à un numéro :
  • Résumés du 16ème Congrès de Pneumologie de Langue Française
  • Recommandations pour la pratique clinique du SAHOS de l’adulte (Texte long)
  • Mission ATS 2011 : Les thèmes forts du Congrès américain





Article

PDF
Accès au texte (PDF)
Quel est votre diagnostic ?
Voir la réponse
Opération sous l'égide de la SPLF
La revue RMR est également disponible sur iPhone et iPad grâce à l'application EM-revues. Voir l'application
Site e-commerce : www.elsevier-masson.fr | Service d'aide à la décision clinique : www.em-select.com | Suivez notre actualité sur le blog Elsevier Masson : blog.elsevier-masson.fr
Site pour réussir ses ecn : www.e-ecn.com
EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.
En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.
Fermer
Plan de l'article