読んだ。
BMJ. 2002 May 25;324(7348):1271-3.
これを読んでいたら論文があったので読んでみた。
いきなり要点を書いておくと
Peer reviewers often make unfounded statistical criticisms, particularly in difficult areas such as sample size and multiple comparisons.
サンプルサイズとか多重検定とか、難しいところで(よくわかってもいないくせに)くそしょうもないコメントを残すやつがいる。
These spurious statistical comments waste time and sap morale.
そういうコメントはムダムダムダァ!!
Reasons include overvaluation of criticism for its own sake, inappropriate statistical dogmatism, time pressure, and lack of rewards for good peer reviewing.
それはなぜかというと、自分の批評の過大評価、統計的ドグマの不適切さ、時間の逼迫、よい査読者への報酬の欠如などがある。
Changes in the culture of peer review could improve things, particularly honouring good performance.
良い査読文化の変化によっていろいろよくなるだろうなぁ(よくなったとは言ってない
筆者は査読における間違った統計の扱い方を誤用(例 1、 2)、建設性のなさ(例1), よくわからない習慣、予測不可能性(例3、 4), 反証の現実的難しさ(例4)として挙げている。
例1:NIH の競争的資金申請
“There is a flaw in the study design with regard to statistical preparation. The sample size appears small.”
統計的に算出できるところで研究デザインのミスがあるねぇ。サンプルサイズが少ないんじゃないの?
臨床研究におけるサンプルサイズ計算は、SPSS とかそういうソフトウェアに(たぶん)実装されていて、臨床研究をくむときは、過去の(小規模の)研究でどれくらい使用されて、どれくらいの効き目があったか(効果量)で計算される。しかし、(ちょっと英語がよくわからなかったが)データからサンプルサイズが算出されるわけだが、そのデータのばらつきが大きいと当然サンプルサイズの精度もばらつくわけだし、加えて、現実の問題設定におけるサンプルサイズは、脱落率や治療へのアドヒアランス(薬を飲んでください、といって本当に真面目に飲むかという態度)が高度にばらつくわけだから、サンプルサイズの正確な推定は本当に難しい。けれども、サンプルサイズの計算が、世の中の教科書が推奨する臨床研究での一ステップとして言われている以上、査読者も杓子定規に、サンプルサイズの点推定を求めてくる。データがたくさんある臨床研究ならまだしも、パイロット研究ならなぁ…という筆者のぼやき。
臨床研究は基本的に「メリットはあるんだろうけど、本当にメリットがあるか確かめたい」というときに行うので、サンプルサイズすら満たせない研究計画は「臨床研究に参加することで不利益を被りうる参加者を減らす」役割があると思うのでまあ、いいとは思うのだが。
例2:有名な実験系科学誌で
“The statistical test used . . . is not appropriate for the multiple comparisons necessitated by this experimental design.”
この実験の統計解析で使った○○は、研究デザインから必要と思われる多重検定について満足していない。
こう査読でコメントされたとき、筆者らは困惑したらしい。というのも、(検定は複数回されたんだろうけど)ある2群は十分な効果量があり、3つめの群はそこそこで、生物学的理論にも合致した結果だったから、ということである。検定を複数回しているときは、ほぼ盲目的に「多重検定は〜」と言ってくる。解析全体で整合性のとれた結果を見るより、ルーティン化された多重検定補正法(た い て い ボンフェローニ)を言ってくるのもなんだかなぁ…という筆者のぼやき。
多重検定って本当は超難しい。補正法だって各検定が独立のときに使える(と理論的に導かれている)ものがメジャーなやつではほとんどだと思うけど、では、その実験デザインが各検定で独立ですか? というと、そんな実験はないだろう。となれば、査読者の提案する多重検定補正法はたいてい、間違ったものだが、だからといって非独立のときに使える(というより、実験デザインにマッチした補正法)って、たぶんそれを考えるだけで一大研究分野になりそう。
例3:臨床系の特別な雑誌
“Figure 1 appears to be a ROC Curve at a 50% threshold. . . . it is not clear how well the system would have worked had other thresholds been chosen.”
図1 は50% を閾値にしたROC曲線だと思われるが、ほかの閾値が選ばれたときにこのシステムがうまく機能するかは不明である。
査読者がROC 曲線についてわかってなさすぎて、自己矛盾しているコメントである。その他、死ぬほど適当(悪い意味で)なコメントがきて、改稿しても結局落とされたけど、他の雑誌にそのまま投稿したらすんなり通ったと。
(ROC を知らない人に説明すると、ROC 曲線は すべての 考えられる閾値を動かして二分類した結果をプロットしたもので、その曲線の形そのものがそのシステムの性能を表しているので、このコメントは査読者が統計をわかっていないことがもろバレ)
ROC くらいは、某国家試験でも出題されるので、他にも尤度比とかベイズとかは「知っているだろう」とお互い思っている(と思う)。しかし、実用レベルで理解しているか、というと、ほとんどの同業者はわかっていない(し、私も統計素人なのでわからないことだらけである)。
例4:とある疾患限定の競争的資金
“It is questionable whether a theoretical baseline value of zero should the use for statistical analysis of differences in the measurements of median matched difference. (sic)”
中央値が一致した対応する差の統計解析にベースラインが0としていいかは疑問である。
査読コメントをすべて眺めてみてもよくわからなかったが、よくよく考えてみるとウィルコクソンのような検定を使った既報を想定していたようである。
ちょっと英語力がアレなので全体として何を言っているのがよくわからなかったが、これに反論しようにも、査読者が考え凝り固まっているのにどうしろといういうんだ…という筆者のぼやき。
この査読者が審査委員からいなくなったあとに同じ申請書を出したら通った()
査読という行為そのものは、投稿された論文の質を高め、科学知識を極めていくことなので、公平な気持ちで読むよりアラ探しに近くなると、こういう間違いが起きやすい、と。
統計はそもそもアラ探しをしやすい領域だし、なおかつアラ探しをするけれども本当の統計を理解している人なんて皆無でほとんどの人が「よく言われているルールに則っているか」にしか気が利かないことが多いので、こういったことの原因である。さらに、死ぬほど査読が降ってきて時間に追われること、そうして労力を割いているのにまったく報われないことも挙げられている。
これを回避するためにどうしたらいいか、ということだが、
本当に自分で具体的に、この統計のまずい点のせいで研究がどうまずくなるかを説明できるときにだけ、コメントする。そうでない場合は(統計の)査読の力量を超えるので、統計がわかる人に丸投げする。
サンプルサイズとか多重検定とかについてのコメントは、本当にそれがどうしようもないときにだけコメントする。
システムを変える:いろいろ書いてあるけど無理。
結局、査読は無給で、「科学をみんなで進歩させていくのに必要でしょ(ニコッ」という大義名分でやっているので、報酬は永遠に無理。
○○学の専門家は、その学問について専門家であって、統計の専門家ではないので、一人査読のときに統計までチェックするのは無理。査読者が二人三人と増えたときに、一人は統計専門家を入れるか、というと、統計専門家は○○学の専門家ではないので、現実問題での適応性についてわかるかは謎(統計のロジックについては査読はできるが)。実験データについて統計解析をするので、実験条件や特性について知っておかないといけないが、(純粋な)統計専門家がそこまで熟知しているかというと、たぶんしていない。
統計も医学も素人だし、ましてや査読なんて引き受けたこともないけど、15年も前に言われていることが現在においてもまったく変わっていないようだし、今後15年くらいはこのままっぽい(適当 けれども、査読してくれる人がいないと論文は出ないわけで、査読者への誠意を忘れてはいけない。