統計学の誤り : 統計的妥当性の「ゴールドスタンダード」である P 値は多くの科学者が想定しているほど信頼できるものではない

STATISTICAL ERRORS: P values, the ‘gold standard’ of statistical validity, are not as reliable as many scientists assume

Regina Nuzzo (2014)

2010 年のほんの一瞬，Matt Motyl は科学的栄光に包まれていた。彼は，過激派が文字通り世界を白黒で見ていることを発見したのだ。

シャーロッツビルにあるバージニア大学の心理学博士課程に在籍する Motyl は，その結果を「明白なもの」として振り返る。 2,000 人近くを対象にした研究で，政治的穏健派は，左翼や右翼の過激派よりも，灰色の濃淡を正確に見ていることが示された。「仮説はカッコよかった。データは明確な裏付けとなった」と彼は言った。証拠の強さを示す一般的な指標である P 値は 0.01 で，通常「非常に有意」と解釈される。インパクトのある雑誌に掲載されることは，Motyl の手の届くところにあるように思えた。

しかし，その後，現実が待っていた。再現性をめぐる論争に敏感な Motyl と彼のアドバイザーである Brian Nosek は，この研究を再現することにした。すると，P 値は 0.59 となり，従来の有意水準である 0.05 にすら及ばない。効果は消え去り，Motyl の若かりし頃の名声の夢も消えてしまった(1)。

問題は，データにも Motyl の分析にもないことが判明した。 P 値は，多くの科学者が想定しているほど信頼性が高くなく，客観的でもない，驚くほど不安定な性質を持っている。イリノイ州シカゴにあるルーズベルト大学の経済学者で，統計の使い方をよく批判している Steven Zilak は「P 値はその役割を果たしてない」と言う。

多くの科学者にとって，再現性の問題を考慮すると，これは特に心配なことである。 2005 年，カリフォルニア州スタンフォード大学の疫学者 John Ioannidis は，発表された研究結果のほとんどが虚偽であると示唆した(2)。それ以来、著名な再現性の問題が相次ぎ，科学者は結果の評価方法を考え直さざるを得なくなっている。

同時に，統計学者たちは，科学者が重要な情報を見逃したり，誤報で行動したりするのを防ぐために，データに関するより良い考え方を模索している。スタンフォード大学の医師で統計学者でもある Steven Goodman は「統計学の哲学を変えると，突然，さまざまなことが重要になる。そうすると，神から伝えられた “法則” は，もはや神から伝えられたものではない。我々が採用する方法論を通じて，実際に我々自身が我々に伝えているのだ。」と言う。

文脈外

P 値には，常に批判者がいた。約 90 年の歴史の中で，P 値は蚊に例えられ (迷惑で，振り払うことができない)，皇帝の新しい服 (誰もが無視する明白な問題をはらんでいる)，科学を荒らすが子孫を残さない「不毛な知的レーキ」の道具と言われてきた(3)。ある研究者は，この方法論を「統計的仮説推論検定」(3) と改名することを提案したが，おそらくその頭文字をとったものであろう。

皮肉なことに，英国の統計学者 Ronald Fisher が 1920 年代に P 値を導入したとき，彼はそれを決定的な検定にするつもりはなかった。彼は，証拠が昔ながらの意味で有意であるかどうかを判断するための非公式な方法，つまり，もう一度見てみる価値があるかどうかを判断するための方法として，この値を意図した。この考え方は，ある実験を行い，その結果が偶然の産物である可能性と一致するかどうかを確認するものであった。研究者はまず「相関関係がない」「2 群の間に差がない」など，反証したい「帰無仮説」を設定する。次に，悪魔の証明として，この帰無仮説が実際に正しいと仮定して，少なくとも実際に観察された結果と同じくらい極端な結果が得られる可能性を計算する。この確率が P 値である。 P 値が小さければ小さいほど，藁人形の帰無仮説が誤りである可能性が高くなると Fisher は考えた。

Fisher は，P 値の精度を高めるために，データと背景知識を融合させて科学的な結論を導き出す，数値化されない流動的な処理の一部に過ぎないことを意図していた。しかし，Fisher はすぐに，証拠に基づく意思決定を可能な限り厳密かつ客観的に行おうとする動きに巻き込まれた。この動きは，1920 年代後半に Fisher の宿敵であるポーランドの数学者 Jerzy Neyman とイギリスの統計学者 Egon Person によって先導され，統計的検出力，偽陽性，偽陰性など，今では統計学の入門クラスでおなじみの多くの概念を含むデータ分析の代替枠組みを導入した。しかし，彼らは P 値という概念を無視した。

しかし，Neyman は Fisher の研究を数学的に「役に立たないよりまし」と言い，Fisher は Neyman のアプローチを「幼稚」で「西洋の知的自由にとって恐ろしい」と言い，ライバルが反目する一方で，他の研究者は我慢できなくなり，現役科学者のための統計学マニュアルを書き始めた。そして，著者の多くはどちらのアプローチも十分に理解していない非統計学者であったため，Fisher の計算しやすい P 値を，Neyman と Pearson の安心できる厳格なルールに基づくの系に詰め込んだハイブリッドシステムを作り出した。例えば，P 値 0.05 が「統計的に有意である」とされるようになったのはこの時である。「P 値は，今日のような使われ方をするものではなかっと」と Goodman は言う。

何を意味するのか？

その結果，P 値が何を意味するのかについて，多くの混乱が生じた(4)。政治的過激派に関する Motyl の研究を考えてみよう。ほとんどの科学者は，0.01 という元の P 値を見て，彼の結果が誤報である可能性は 1 %に過ぎないと言うだろう。しかし，それは間違いである。 P 値は，特定の帰無仮説を仮定して，データを要約することしかできないからである。 P 値は，特定の帰無仮説を仮定してデータを要約することしかできないので，それを逆算して根本的な現実について発言することはできない。そのためには，もう一つの情報，すなわち，そもそも本当の効果があったという確率が必要である。この確率を無視することは，頭痛で目覚めたときに，稀な脳腫瘍であると結論づけるようなものである。可能性はあるが，アレルギー反応のような日常的な説明に取って代わるには，より多くの証拠が必要なほど，ありえないことである。テレパシー，宇宙人，ホメオパシーなど，仮説があり得ないものであればあるほど，P 値がどうであれ，興味深い発見が誤報である可能性は高くなる。

これらは厄介な概念であるが，一部の統計学者は一般的な経験則による変換を提供しようとしている (Probable cause 参照)。広く使われている計算 (5) によると，P 値が 0.01 の場合，真の効果がある確率にもよるが，少なくとも 11 ％の虚報率に相当し，P 値が 0.05 の場合，その確率は少なくとも 29 ％まで上昇する。つまり Motyl の発見は，10 分の 1 以上の確率で虚報であったということです。同様に，彼の元の結果を再現できる確率は，多くの人が想定するような 99 ％ではなく，73 ％に近いもので，もし彼が別の「非常に有意な」結果を望むなら，50 ％しかない (6,7)。言い換えれば，彼が結果を再現できないのは，コイン投げで表を出したら裏が出たのと同じような驚きだったのである。

また，批評家たちは，P 値が混同した思考を助長することを嘆く。その典型的な例が，効果の実際の大きさから注意をそらす傾向である。例えば，昨年，19,000 人以上を対象とした研究で(8)，配偶者とオンラインで出会った人は，オフラインで出会った人よりも離婚しにくく (p < 0.002)，結婚生活の満足度が高い (p < 0.001) ことが示された (Nature http://doi.org/rcg; 2013)。オンラインで会うと離婚率が 7.67 %から 5.96 %に下がり，幸福度は 7 段階評価で 5.48 から 5.64 とほとんど変わらなかった。オーストラリア，メルボルンのラ・トローブ大学の名誉心理学者 Geoff Cumming は「小さな P 値に飛びついて，より大きな問題を無視することは『有意性の魅惑的な確信』の餌食になる」と述べている。しかし，有意性は実用的な関連性の指標にはならないと彼は言う。「私たちは『効果があるか』ではなく『どの程度の効果があるか』を問うべきだろう」と。

### 推定理由 P 値は，観察された結果が偶然に起因するものであるかどうかを測定する。しかし，研究者の真の疑問である「仮説が正しい確率はどのくらいか」という問いには答えることができない。この確率は，結果がどれだけ強いものであったか，そして最も重要なことは，そもそも仮説がどれだけ妥当なものであったかによって決まる。実験前: 仮説の妥当性，つまり仮説が正しい確率は，過去の実験や推測される機構，その他の専門的知識から推定することができる。ここでは 3 つの例を示す。測定された P 値: 0.05 で「統計的に有意」，0.01で「非常に有意」と判断実験後： P 値が小さいと仮説の信憑性が高まるが，その差は劇的なものではないかもしれない。

ペンシルバニア大学の心理学者 Uri Simonsohn と彼の同僚たちは，P-ハッキングという言葉を広めた。これは，データ浚渫(しゅんせつ) data-dredging，スヌーピング，フィッシング，有意性追跡，ダブルディッピングなどとも呼ばれている。「P-ハッキングとは，「望む結果が得られるまで，無意識のうちに複数のことを試してみること」だと Simonsohn は言う。 P-ハッキングは，オンラインの Urban Dictionary で定義された最初の統計用語かもしれない：「その発見は p-ハッキングによって得られたようだ。著者たちは，全体の p 値が 0.05 未満になるように条件の一つを落とした。彼女は p-ハッカーだ。彼女は常にデータを収集しながら監視している。」

このようなやり方は，本来懐疑的に扱われるべき探索的研究からの発見を，一見確かな確証のように見えるが，再現すると消えてしまうという効果をもたらすものである。 Simonsohn のシミュレーションによると，数個のデータ解析の決定を変更するだけで，1 つの研究の偽陽性率が 60 %に増加することが示されている(9)。ノイズの多いデータに隠された小さな効果を追い求める今日の研究環境では，P ハッキングは特に起こりやすいと彼は言う。この問題がどの程度広がっているのかを特定するのは難しいが，Simonsohn はこの問題が深刻であることを感じている。ある分析(10) では，発表された心理学論文の多くが，P 値が 0.05 付近で怪しくまとまっている証拠を発見した。これは，研究者が有意な P 値を見つけるまで釣り上げた場合に予想されることである。

ナンバーズゲーム

批判があるにもかかわらず，改革は遅々として進まない。「統計学の基本的な枠組みは，Fisher, Neyman, Peason が導入して以来，ほとんど変わっていない」と Goodman は言う。現在ミネソタ大学（ミネアポリス）の心理学者である John Cambell は，1982 年，『応用心理学』誌の編集者だったころ，この問題を嘆いていた：「著者を p 値から引き離すことはほとんど不可能であり，小数点以下の 0 が多ければ多いほど，人々は p 値に固執する」(11)。 1989 年，マサチューセッツ州ボストン大学の Kenneth Rothman が雑誌 Epidemiology を創刊したとき，彼はそのページで P 値を思いとどまるよう最善を尽くした。しかし，彼は 2001 年に同誌を去り，その後，P 値は復活した。

Ioannidis は現在，PubMed データベースを調査し，さまざまな分野の著者が P 値やその他の統計的根拠をどのように使用しているかについての洞察を得ている。「最近発表された論文のサンプルをざっと見ただけでも，P 値がまだ非常に人気があることが納得できる」と彼は言う。

どのような改革も，凝り固まった文化を一掃する必要がある。統計学の教え方，データ解析の方法，結果の報告や解釈の仕方も変えなければならないだろう。しかし，少なくとも研究者たちは自分たちに問題があることを認めている，と Goodman は言う。「警鐘を鳴らすのは，私たちが発表した結果の多くが真実ではないということである。」 Ioannidis のような研究者の仕事は，理論的な統計学上の不満と実際の困難との間の関連性を示していると，Goodman は言う。「統計学者が予測した問題は，まさに今，私たちが目の当たりにしていることである。ただ，まだすべての解決策を持っているわけではない」。

統計学者たちは，助けになりそうな対策をいくつも指摘している。例えば，結果を有意か有意でないかで判断してしまうという罠を避けるために，Cumming は，研究者は常に効果量と信頼区間を報告すべきであると考えている。信頼区間は，P 値にはない，効果の大きさと相対的重要性を伝えるものである。

ベイズの法則とは，18世紀の定理で，確率を，その結果の潜在的な頻度ではなく，結果の確からしさとして考える方法を説明するものである。この法則は，統計学のパイオニアたちが避けようとした，ある種の主観を伴うものである。しかし，ベイズの枠組みは，観察者が世界について知っていることを結論に反映させ，新しい証拠が出てきたときに確率がどのように変化するかを計算することを比較的容易にするのである。

また，同じデータセットで複数の手法を試すことを奨励し，より広範なアプローチを主張する人もいる。ルクセンブルク市にある公衆衛生研究センターの統計学者 Stephen Senn は，これを，隅から自分で出口を見つけることができない床掃除ロボットを使うことに例える。どのようなデータ分析手法でも，いずれは壁にぶつかり，常識的な判断が必要になってくる。

Simonsohn は，科学者を最も強く保護する方法の 1 つは，すべてを認めることだと主張している。彼は著者に，自分の論文を「P-hacked ではなく P-certified (P-認定)」と銘打って，次のような言葉を入れるよう勧めている：「サンプルサイズの決め方，(もしあれば) すべてのデータの除外，すべての操作，研究のすべての尺度を報告する。」この開示によって，P ハッキングを阻止するか，少なくとも読者に悪ふざけを警告し，それに応じて判断できるようになることを彼は望んでいる。

ニューヨークのコロンビア大学の政治学者で統計学者の Andrew Gelman は，2 段階分析，すなわち「事前登録された複製」という考え方が注目を集めていると言う。このアプローチでは，探索的分析と確認的分析が異なる方法でアプローチされ，明確にラベル付けされる。例えば，4 つの小さな研究を別々に行い，その結果を 1 つの論文で報告するのではなく，研究者はまず 2 つの小さな探索的研究を行い，虚報をあまり気にせずに潜在的に興味深い知見を収集する。そして，その結果をもとに，どのように確認するかを決め，オープンサイエンスフレームワーク (https://osf.io) のようなデータベースにあらかじめ登録しておく。そして，再現研究を実施し，その結果を探索研究の結果と並べて発表する。このアプローチでは，分析の自由度と柔軟性が確保される一方，発表される誤報の数を減らすために十分な厳密性が確保されると Gelman は言う。

「より広い意味で，研究者は従来の統計学の限界を認識する必要がある」と Goodman は言う。その代わりに，仮説の妥当性や研究の限界に関する科学的判断のうち，通常は考察の節に追いやられる要素 (同一または類似の実験結果，提案されている機構，臨床知識など) を分析に取り入れるべきであるという。メリーランド州ボルチモアにあるジョンズ・ホプキンス大学ブルームバーグ公衆衛生大学院の統計学者 Richard Royall は，科学者が研究の後に尋ねたくなる質問が 3 つあると述べている：「’エビデンスは何か？」「何を信じるべきか」，「何をすべきか」である。 1 つの手法でこれらすべての質問に答えることはできない。「数字こそ，科学的な議論を始めるべき場所であって，終わらせるべきではない」と Goodman は言う。

■ SEE EDITORIAL P. 131

Regina Nuzzo is a freelance writer and an associate professor of statistics at Gallaudet University in Washington DC.

Nosek, B. A., Spies, J. R. & Motyl, M. Perspect. Psychol. Sci. 7, 615–631 (2012).
Ioannidis, J. P. A. PLoS Med. 2, e124 (2005).
Lambdin, C. Theory Psychol. 22, 67–90 (2012).
Goodman, S. N. Ann. Internal Med. 130, 995–1004 (1999).
Goodman, S. N. Epidemiology 12, 295–297 (2001).
Goodman, S. N. Stat. Med. 11, 875–879 (1992).
Gorroochurn, P., Hodge, S. E., Heiman, G. A., Durner, M. & Greenberg, D. A. Genet. Med. 9, 325–321 (2007).
Cacioppo, J. T., Cacioppo, S., Gonzagab, G. C., Ogburn, E. L. & VanderWeele, T. J. Proc. Natl Acad. Sci. USA 110, 10135–10140 (2013).
Simmons, J. P., Nelson, L. D. & Simonsohn, U. Psychol. Sci. 22, 1359–1366 (2011).
Simonsohn, U., Nelson, L. D. & Simmons, J. P. J. Exp. Psychol. http://dx.doi.org/10.1037/a0033242 (2013).
Campbell, J. P. J. Appl. Psych. 67, 691–700 (1982).