Retire statistical significance

統計的有意性を引退させろ

Valentin Amrhein, Sander Greenland, Blake McShane, および 800 人以上の署名者は,誇大な主張と,重要な効果を否定することに終止符を打つことを求めている。
Retire statistical significance

「統計的に有意でない」という理由で,2 群に「差はない」と主張するセミナー講師の話を最後に聞いたのはいつだろうか?

もしあなたの経験が私たちと同じなら,あなたが参加した最後の講演でこのようなことが起こった可能性が高い。 よくあることだが,プロットや表で実際に差があることが示された場合,少なくとも聴衆の誰かが困惑したことを願う。

統計学の教育を受けていない人が見れば一目瞭然の違いを,どうして統計学は科学者に否定させるのだろうか。 数世代にわたって,研究者は,統計的に有意でない結果が帰無仮説 (群間に差がない,あるいはある治療がある測定結果に対して効果がないという仮説) を「証明」するものではない,と警告されてきた(1)。 また,統計的に有意な結果が他の仮説を「証明」するわけでもない。 このような誤解が,誇張された主張によって文献を歪めてきたことは有名であり,また,あまり有名ではないが,存在しないのに研究間の対立があると主張することにつながっている。

私たちは,科学者がこのような誤解の餌食にならないよう,いくつかの提案をしている。

広まっている問題

P 値が 0.05 などの閾値より大きいから,あるいは信頼区間がゼロを含むからと言って「差がない」「関連がない」と結論付けてはならない。 また,統計的に有意な結果が得られたものとそうでないものがあるからといって,2 つの研究が矛盾していると結論づけることもしてはならない。 このような誤りは,研究努力を無駄にし,方針決定に誤った情報を与える。

例えば,抗炎症剤の意図しない作用に関する一連の分析結果を考えてみよう(2)。 その結果は統計的に有意ではなかったので,ある研究者は,薬物への曝露は新規発症の心房細動 (心臓のリズムを乱す最も一般的な障害) と「関連がない」と結論づけ,その結果は統計的に有意な結果を得た以前の研究結果とは対照的であった。

さて,実際のデータを見てみよう。 統計的に有意でない結果を説明した研究者は,リスク比を 1.2 (つまり,曝露された患者は曝露されていない患者に比べてリスクが 20% 高い) とした。 また,95 %信頼区間は,3 %というわずかなリスク低下から 48 %というかなりのリスク上昇にまで及んでいた (P=0.091,我々の計算)。 先行研究では,全く同じリスク比 1.2 で統計的に有意な検出された。 その研究の方がより正確で,9 %から 33 %のリスク増加の区間があった (P=0.0003, 我々の計算)。

区間推定値に重大なリスク増加が含まれているにもかかわらず,統計的に有意でない結果が「関連なし」を示していると結論づけるのはおかしなことであり,これらの結果が,同一の観察効果を示す以前の結果と対照的だと主張するのも同様におかしなことである。 しかし,これらの一般的なやり方は,統計的有意性のしきい値に依存することがいかに私たちを惑わせるかを示している (「誤った結論に注意」参照)。

これらと類似の誤りは広範囲に及んでいる。 数百の論文を調査したところ,統計的に有意でない結果を「差なし」または「効果なし」と解釈しているものが約半数あることがわかった (「誤った解釈」および補足情報参照)。

2016年,米国統計学会は The American Statistician において,統計的有意性と P 値の誤用に警告を発する声明を発表した。 同号には,このテーマに関する多くの解説も掲載された。 今月,同誌の特集号は,こうした改革をさらに推し進めようとするものである。 ‘Statistical inference in the 21st century: a world beyond P < 0.05’.「21 世紀の統計的推論:P < 0.05 を超える世界」に関する 40 以上の論文が掲載されている。 編集者は「”統計的に有意”とは言わないように」と注意を促しながら,このコレクションを紹介している(3)。 また,数十人が署名した別記事 (4) でも,著者や雑誌編集者にこれらの用語を否定するよう呼びかけている。

我々はこれに同意し,統計的有意性の概念全体を放棄することを要求する。 私たちは孤独ではない。 このコメントの草稿を読んで,私たちのメッセージに賛同する人は署名してくださいと呼びかけたところ,最初の 24 時間以内に 250 人が署名してくれた。 その 1 週間後には,800 人以上の署名者がいた。 全員が,統計的モデリングに依存する分野で現在または過去に仕事をしていることを示す,学術的な所属やその他の表示をチェックした (署名者のリストと最終数は補足情報に記載)。 その中には,50 カ国以上,南極大陸を除く全大陸の統計学者,臨床・医学研究者,生物学者,心理学者が含まれている。 ある賛同者は,これを「軽率な統計的有意性の検定に対する外科的攻撃」であり,「より良い科学的実践を支持する声を登録する機会」であると述べている。

我々は P 値の使用禁止を要求しているわけではない。 また,ある特殊な用途 (製造工程が品質管理基準を満たしているかどうかの判断など) において,P 値を判断基準として使用することができないと言っているわけでもない。 また,弱い証拠が突然信頼できるようになるような,何でもありの状況を提唱しているわけでもない。 むしろ,何十年にもわたって他の多くの人々と同じように,我々は,従来の二項対立的な方法で P 値を使用することをやめるよう求めているのである。

#### 間違った結論に注意 観察された効果 (または点推定値) はどちらの研究でも同じなので,一方が「有意」で他方が「有意でない」であっても,両者は対立するものではない。

カテゴリ分けをやめる

統計的な問題以上に,人間的,認知的な問題がある。 結果を「統計的に有意」と「統計的に有意でない」に分けてしまうと,そのように割り当てられた項目がカテゴリー的に異なっていると思わせてしまうのである(6-8)。 同じ問題は,頻度主義,ベイズ主義,その他を問わず,二項対立を伴う統計的代替案のもとでも発生しそうだ。

残念ながら,統計的有意性の閾値を超えれば,その結果が「本物」であることを示すのに十分であるという誤った信念が,科学者や雑誌編集者にそのような結果を優遇させ,それによって文献を歪めている。 統計的に有意な推定値は,その大きさに偏りがあり,潜在的に大きな影響を与えるが,統計的に有意でない推定値は,その大きさに偏りがある。 その結果,有意であることを理由に選ばれた推定値に焦点を当てた議論は,偏ったものになる。 その上,統計的有意性に固執することで,研究者は,ある望ましい (あるいは単に出版可能な) 結果については統計的有意性をもたらし,医薬品の潜在的副作用のような望ましくない結果については統計的非有意性をもたらすデータや方法を選択し,それによって結論を無効化することになる。

研究の事前登録と,すべての解析結果の公表を約束することで,これらの問題を軽減することができる。 しかし,事前登録された研究の結果でさえ,解析計画で必ず残される決定によって偏りが生じることがある(9)。 これは,どんなに良い意図を持っていても起こることである。

繰り返すが,私たちは P 値,信頼区間,その他の統計的尺度の禁止を提唱しているわけではなく,カテゴリー的に扱うべきでないということのみである。 これには,統計的に有意か否かの二項対立や,ベイズ因子のような他の統計的尺度に基づく分類が含まれる。

このような「二項対立」を避ける理由の一つは,P 値や信頼区間を含むすべての統計は,研究ごとに自然に変化し,しばしば驚くべき程度に変化することである。 実際,ランダムな変動だけで,P 値は 0.05 の閾値の両脇に収まるだけでなく,大きな格差が生じやすくなる。 例えば,ある本物の効果について,研究者が 2 つの完全な再現研究を行い,それぞれが 80 %の検出力で P < 0.05 を達成できたとしても,一方が P < 0.01,他方が P > 0.30 であってもそれほど不思議ではない。 P 値が小さくても大きくても,注意が必要である。

私たちは不確実性を受け入れることを学ばなければならない。 そのための実用的な方法の一つは,信頼区間を「両立区間」と改名し,過信を避けるような形で解釈することです。 具体的には,著者は,区間内のすべての値,特に観察された効果 (または点推定値) と限界値の実用的な意味を説明することを推奨する。 その際,区間を計算するために使用された統計的仮定を考慮すると,区間内の限界値の間のすべての値は,データに合理的に適合していることを忘れてはならない (7,10)。 したがって,区間内のある特定の値 (ヌル値など) を「示されている」と決めつけることは意味がない。

私たちは,プレゼンテーション,研究論文,レビュー,教材において,このような無意味な「ヌルの証明」や非関連性の主張を見るのは,正直言ってうんざりしている。 ヌル値を含む区間は,実用上重要度の高い非ヌル値も含むことが多い。 とはいえ,区間内のすべての値を実用上重要でないとみなせば,「我々の結果は重要な効果がないと最も適合性が高い」というような言い方ができるかもしれない。

互換性のある区間について話すときは,4 つのことを心に留めておくこと。 第一に,区間は,仮定があればデータに最も適合する値を与えるからと言って,その外の値が適合しないことを意味するのではなく,適合性が低いだけである。 実際,区間のすぐ外側の値は,区間のすぐ内側の値と実質的な差はない。 したがって,区間がすべての可能な値を示していると主張するのは間違いである。

第二に,前提条件を考えると,中のすべての値がデータと同じように適合するわけではない。 点推定値が最も適合性が高く,それに近い値は限界値に近い値よりも適合性が高い。 このため,著者には,P 値が大きい場合や区間が広い場合でも,その区間の限界値を議論するだけでなく,点推定値についても議論するよう促している。 例えば,上記の著者はこう書くことができただろう: 以前の研究と同様に,我々の結果は,抗炎症薬を投与された患者における新規発症心房細動のリスクが 20 %増加することを示唆してる。 それにもかかわらず,小さな負の関連である 3 %の減少から,実質的な正の関連である 48 %の増加までのリスク差も,我々の仮定を考慮すれば,我々のデータと合理的に適合するものである 。 点推定値の不確実性を認識しながら解釈することで「差がない」と誤った宣言をしたり,過信して主張したりすることがなくなる。

第三に,0.05 の閾値のように,そこから 区間を計算するために使われるデフォルトの 95 %は,それ自体が恣意的な慣習である。 これは,計算された区間自体が真の値を含む可能性が 95 %あるという誤った考えと,これが自信に満ちた決定の根拠であるという漠然とした感覚に基づくものである。 応用によっては,異なるレベルが正当化されることもある。 また,抗炎症薬の例のように,区間推定が課す二項対立が科学的な基準として扱われる場合,統計的有意性の問題を永続させる可能性がある。

最後に,そして最も重要なことは,謙虚であることである。 互換性の評価は,区間を計算するために使われた統計的仮定の正しさに依存している。 実際には,これらの仮定はせいぜいかなりの不確実性に左右される (7,8,10)。 これらの仮定をできるだけ明確にし,例えば,データをプロットしたり,代替モデルを当てはめたりして,できるものを検証し,すべての結果を報告する。

統計がどうであれ,結果の理由を示唆するのは構わないが,好みの説明だけでなく,さまざまな可能性について議論すること。 推論は科学的であるべきであり,それは単に統計的であることをはるかに超えている。 背景となる証拠,研究デザイン,データの質,基礎となる機構の理解といった要素は,P 値や区間といった統計的尺度よりも重要であることが多い。

統計的有意性を削除することに対して,私たちが最もよく耳にする反論は,イエスかノーかの判断をするために統計的有意性が必要だということである。 しかし,規制,政策,ビジネス環境においてしばしば必要とされる選択では,すべての潜在的な結果のコスト,利益,可能性に基づく決定は,常に統計的有意性のみに基づく決定よりも優れている。 さらに,ある研究アイデアをさらに追求するかどうかの判断では,P 値とその後の研究の結果の可能性との間に単純な関連性はない。

統計的有意性の引退はどのようなものになるのだろうか。 私たちは,方法の節やデータ集計がより詳細でニュアンスのあるものになることを望んでいる。 例えば,区間の下限と上限を明示的に論じるなど,著者は推定値とその不確実性を強調するようになる。 有意差検定に依存しない。 P 値が報告される場合は,統計的有意性を示す星や文字のような装飾をせず,二項対立の不等式 (P < 0.05 または P > 0.05) ではなく,常識的な精度 (例えば P=0.021 または P=0.13) で示されるようになる。 結果の解釈や公表の判断は,統計的なしきい値に基づくものではなくなる。 人々は統計ソフトに費やす時間を減らし,考える時間を増やすだろう。

統計的有意差を廃止し,信頼区間を互換性区間として使用するという我々の呼びかけは,万能ではない。 多くの悪習を排除することはできても,新たな悪習を導入する可能性は十分にある。 したがって,統計的な乱用がないか文献を監視することは,科学界にとって継続的な優先事項であるべきである。 しかし,分類を根絶することで,過信的な主張,「差がない」という不当な宣言,オリジナルと再現研究の結果が高い互換性を持っている場合の「再現性の失敗」という不合理な発言に歯止めをかけることができる。 統計的有意性の誤用は,科学界と科学的助言に依存する人々に多くの害を及ぼしている。 P 値,区間,その他の統計的尺度はすべてその役割を果たすが,統計的有意性はそろそろ廃止すべきである。

  1. Fisher, R. A. Nature 136, 474 (1935).
  2. Schmidt, M. & Rothman, K. J. Int. J. Cardiol. 177, 1089–1090 (2014).
  3. Wasserstein, R. L., Schirm, A. & Lazar, N. A. Am. Stat. https://doi.org/10.1080/00031305.2019.1583913 (2019).
  4. Hurlbert, S. H., Levine, R. A. & Utts, J. Am. Stat. https://doi.org/10.1080/00031305.2018.1543616 (2019).
  5. Lehmann, E. L. Testing Statistical Hypotheses 2nd edn 70–71 (Springer, 1986).
  6. Gigerenzer, G. Adv. Meth. Pract. Psychol. Sci. 1, 198–218 (2018).
  7. Greenland, S. Am. J. Epidemiol. 186, 639–645 (2017).
  8. McShane, B. B., Gal, D., Gelman, A., Robert, C. & Tackett, J. L. Am. Stat. https://doi.org/10.1080/00031305.2018.1527253 (2019).
  9. Gelman, A. & Loken, E. Am. Sci. 102, 460–465 (2014).
  10. Amrhein, V., Trafimow, D. & Greenland, S. Am. Stat. https://doi.org/10.1080/00031305.2018.1543137 (2019).