ASAの声明とそのプレスリリース(100%予測ではない)が話題になっている。
英語自体は平易だが面倒ならば某データサイヤ人が日本語で記事を書いている。
少なくとも、この記事というかp値について個人的見解を言うならば、
Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
というのは非常によくわかるのだが、だからと言ってp値はクソ!!いまの時代はモデリング!!(言い過ぎ)というのは、たぶん、自分の分野ではまだp値はモデリングとか他のなんかすごいやつにはとって変わらず、この先15年はp値が主流ではないかと思う。
というのも、やはりp値がここまで主流なのは、p値といえばまあそれが何を意味しているか(統計学的に真の意味を表している、もしくは、我々が真にp値の意味を知っているかは関係なく、というか、ほとんどの場合意味してないしわかっていない)が共通認識として浸透しすぎてしまっているから。
理由その1:みんなそこまで賢くない
ここで言うみんなとは、例えば、新薬の承認とか臨床試験を組んだりとかいうくっそお偉い(頭のよい)立場ではなく、論文がぼこぼこ出て市場に出てさぁバカでも免許があればお薬使えますよ、みたいな自分のような末端構成員のこと。たぶん99% はこのカテゴリーだと思う。
我々が気になるのは、「この薬が効くか、効かないか」である。この問を究極に凝縮した答えがp < 0.05 なのである(本当は全然違うよ)。
だがしかし(アニメではない。オレはさや師派である)、末端構成員は日々の雑務に忙殺され、実際の集団とか試験の組み方とか検定法とかそういうのにまで目を通してなおかつ解析法にまで深く理解をするのは現代では無理(たぶん過去も未来も無理)。
となれば、OS がXヶ月伸びた(p < 0.05)を見るだけでわかるのは非常に簡単でありがたいのである(だから、本当は全然違うよ)。このありがたみがある以上、たぶんp値信仰は絶対なくならない。
純粋な数理的統計学者ではなく、統計遺伝、生物統計、医療統計の分野の人なのでこんな考えなのだが、本来ならば、統計的計算以前に、データにはデータとしての意味がある。例えば、OS の例を上げたけど、100歳になった人を10000人ずつ集めて(現実的に不可能だけど)蒸留水と水道水を毎日飲んでもらう試験をしたとして、蒸留水を飲んだ群のOS が水道水を飲んだ群と比べて1ヶ月(p < 0.05)伸びた、という結果が出たとしたら、どうだろうか。
そもそも100歳の人が2群10000人ずつ集まるわけねーよ、というツッコミはおいておいて、
10000人もいたら小さな効果量でも差は出るだろう
100歳から1ヶ月寿命が伸びることがどうか vs 100歳からでも1ヶ月寿命が伸びる!!
蒸留水で寿命が伸びる!! vs 蒸留水と水道水の現実的な差異ははたしてあるのか
そもそもOS だけの比較でいいのか??
とかいろいろ思うところはあるだろうが、統計学とデータ解析(解釈)とは本来そういうものであり、背景を踏まえていろいろ考えなければならないのだが、p < 0.05 はそんな面倒なことは全部すっ飛ばして(本当はすっ飛ばせないよ)
蒸留水を飲めば100歳からでも長生きできますから!!
と平気で言えるようになるのである(本当は言えないよ)。
理由その2:みんな多くは覚えられない
どんな集計にも平均値を特に理由もなく求めてしまうのは、平均値が上でもいったような、データを究極に凝縮した答えであり、なおかつみんなよく使っていると信じられている値のひとつ(統計量)だからだと思っているが、そもそもなぜ統計量を求めるかというと、人はたくさんのデータを覚えられないからである。
なにかすごい値ひとつに知りたいことが凝縮されたらいいじゃん? それがp値というふうになってしまったのである。
理由その3:共通言語である
CRP という検査値がある。これが上がると抗生剤を開始する、と言ったら専門家()に馬鹿にされるわけだけれども、これと同じ構造で、p<0.05 だとなにかすごい結果になったものだと盲信する…んだけど、こう言うと統計の専門家()に馬鹿にされる。
しかしながら、CRP が上がると、何かしらのすごいこと(やばいこと)が高確率で体内で起こっているのは、確かっぽい(という書き方をしてもたぶんCRP の専門家に馬鹿にされるんだろうけれども)。p < 0.05 だと、すくなくとも帰無仮説として設定したことについてはなにか異常がある。
実際のところ、CRP が上がっても大したことない事態かもしれないし、そもそもの原因はまったくわからないこともある。がしかし、異常状態であることの初手として着目されることが多い。というのと一緒で、とりあえず、p値は見ちゃう。
じゃないと、異分野や異なる能力間で話が通じないのである。CRP はどこの検査機器でも(たぶん)測定できるし、教授から学生まで、その値の上昇具合がどれくらいやばいか、はそれなりに共通認識がある。FDRが、というと、遺伝子系の研究者は話は通じるけど、そうでない人には90% くらいの確率で(???)っていう顔されるので、まあ、p値が、と言っておけば事足りる(コミュニケーションという意味であって、統計学的に通じたかではない)。
ではどうしたらいいか。
たぶん、お偉い人たちががんばってp値以外の他の統計量や指標、モデル、考え方を流布してくれると思うので、当面は「p値いいっすね〜(アヘ顔」って上司にいい顔をしながら、その他の手法について勉強するしかないんじゃないかな(適当