p値について / 仮説検定

 p値は「帰無仮説が正しいと仮定すると、観測された現象以上に極端な検定統計量が得られる確率」である。p値が有意水準を下回ると「統計的に有意である」と評価される。有意水準は5%に設定されることが多いので、p値が0.05を下回るとデータ分析者は安心できる。

 ただし、p値には落とし穴がある。p値の運用が正しくあるには「① p値の解釈が適切であること(偽陰性、偽陽性、仮定の正しさ、相関と因果、効果の大小)」「② p値が正しく求められていること(モデリング、サンプリング、研究不正)」が必要である。第一に(①-1)、p>0.05なだけで結果を軽視してはいけない(偽陰性)。p値が0.05を上回っていることはニュアンスとして「対立仮説が正しいとは断言できない」を意味しているのにすぎず、「対立仮説が正しくない」は意味しない。第二に(①-2)、p≦0.05であっても結果を絶対視してはいけない(偽陽性)。有意水準の確率で偶然発生しうる結果だからである。有意水準5%なら、20回分析したら平均して1回の偽陽性が発生する。第三(①-3)、p≦0.05が誤っている可能性は大いにあることを忘れてはならない。②でふれるようにp値が正しく求められていなければ何の意味もない。分析者が統計ソフトを使う際に、暗黙のうちに課している仮定がすべて正しかった場合に、計算されたp値が正しい。第四に(①-4)p≦0.05で因果関係を示せたと考えてはならない。回帰モデルをただ当てはめただけの場合、p≦0.05は相関関係があることを示せたに過ぎず、因果関係を示したことにはならない。第五に(①-5)、p≦0.05は効果が大きいことを意味しない。p値は効果の有無を評価するが、効果の大小とは無関係である。第六に(②-1)、現実を反映した統計モデルを組み立てなければならない。例えば、回帰モデルを用いるのならば、モデルの数式は正しく、外生性が成り立っており、誤差項の分散についての仮定も正しくなければならない。また、多くの場合、無作為抽出による独立性や大きなサンプル・サイズによる漸近性も仮定されており、正しくなければならない。第七に(②-2)、データの取得が正しく行われていなければならない。例えば、無作為抽出ができていなければ、セレクション・バイアスが生じてしまう。第八に(②-3)、p値ハッキングをしてはならない。p>0.05となることを恐れて、有意な結果が現れるまでサンプルサイズをどんどん増やしたり、標準誤差が小さくなる計算方法を選んだり、仮説に従いやすい母集団からデータを取得したり、有意な結果になるようにモデルを何度も何度も組み立て直してはならない。

 真理に至る道は険しい。再現性の危機(reproducibility crisis)という言葉がある。再現性の危機とは、論文にて統計的に有意とされた関係性が追試で再現されず、研究結果の科学的信憑性が毀損された事態のことである。科学者でさえそうなら、我々一般市民はどうなのだろうか。

 

【追記】

 次のブログを参考にしました。

・TJO(2016)「『p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう』というアメリカ統計学会の声明」,渋谷駅前で働くデータサイエンティストのブログ.

・モイナ・ベイカー(2016)「P値の誤用の蔓延に米国統計学会が警告」,natureダイジェスト.