N=300 の試験みっつとN=900 の試験ひとつのどっちがよいか

こんな話を見かけた。
 
生物・医療統計の立場的に言えば、N=300 * 3 の試験のほうがよいとおもう。

I’ve been thinking about this thought experiment:

Imagine you’re given two papers.
Both papers explore the same topic and use the same methodology. Both were preregistered.
Paper A has a novel study (n1=300) with confirmed hypotheses, followed by two successful direct replications (n2=300, n3=300).
Paper B has a novel study with confirmed hypotheses (n=900).
Intuitively, which paper would you think has the most evidence? (Be honest, what is your gut reaction?)

I’m reasonably certain the answer is that both papers provide the same amount of evidence, by essentially the likelihood principle, and if anything, one should trust the estimates of paper B more (unless you meta-analyzed paper A, which should give you the same answer as paper B, more or less).

However, my intuition was correct that most people in this group would choose paper A (See https://www.facebook.com/groups/853552931365745/permalink/1343285629059137/ for poll results).

My reasoning is that if you are observing data from the same DGP, then where you cut the data off is arbitrary; why would flipping a coin 10x, 10x, 10x, 10x, 10x provide more evidence than flipping the coin 50x? The method in paper A essentially just collected 300, drew a line, collected 300, drew a line, then collected 300 more, and called them three studies; this has no more information in sum (in a fisherian sense, the information would just add together) than if you didn’t arbitrarily cut the data into sections.

If you read in the comments of this group (which has researchers predominantly of the NHST world), one sees this fallacy that merely by passing a threshold more times means you have more evidence. They use p*p*p to justify it (even though that doesn’t make sense, because one could partition the data into 10 n=90 sets and get ‘more evidence’ by this logic; in fact, you could have 90 p-values of ~.967262 and get a p-value of .05). They use fisher’s method to say the p-value could be low (~.006), even though when combined, the p-value would actually be even lower (~.0007). One employs only Neyman-Pearson logic, and this results in a t1 error probability of .05^3.

 
2つの論文があったとして、どちらも同じ対象、同じ手法を使っていて、preregistered である(どちらが有用かはわかっていないという意味?)。
A はN=300 の試験でconfirmed hypotheses (帰無仮説を十分に棄却して研究仮説を満たしたという意味?)で、続いてN=300 で2回繰り返してsuccessful (これもconfirmed hypotheses と同じで、研究仮説を満たしたという意味?) だった。
B はN=900 でconfirmed hypotheses だった。
このとき、直感的にどちらがよりエビデンス(情報?) を持つか?
 
という質問がSNS上であがっている。回答ではA が多いようだったが、出題者いわく、
AとB はどちらも同じ量の情報を持っている、というのも、尤度を考えればそうなる。そうでなくとも、メタアナリシスの手法を使わない限り、Bのほうがまだ情報が多い(推定精度は信頼がおける)。
 
といっており、例えば50回コイン投げをするとして、10回 5施行に分けた場合に、50 と10*5 では50のほうが信頼がおけるとか、p値がどうこうとか言っている。
 
これに対して、ブログの筆者は、confirmed hypotheses とsuccessful の意味するところがよくわからないこと、解析されているデータは2つの設定で同じか、ということを聞いているが、

I [出題者], in a sense, left it ambiguous because I suspected that knowing nothing else, people would put paper A, even though asymptotically it should provide the same information as paper B.

I also left ‘confirmed hypothesis’ vague, because I didn’t want to say one must use one given framework. Basically, the hypotheses were supported by whatever method one uses to judge support (whether it be p-values, posteriors, bayes factors, whatever).

Successful replication as in, the hypotheses were supported again in the replication studies.

Finally, my motivating intuition was that paper A could basically be considered paper B if you sliced the data into thirds, or paper B could be written had you just combined the three n=300 samples.

That said, if you are experimenter A gaining three n=300 samples, your data should asymptotically (or, over infinite datasets) equal that of experimenter B gaining one n=900 sample (over infinite datasets), in the sense that the expected total information is equal, and the accumulated evidence should be equal. Therefore, even if any given two papers have different datasets, asymptotically they should provide equal information, and there’s not a good reason to prefer three smaller studies over 1 larger one.

Yet, knowing nothing else, people assumed paper A, I think, because three studies is more intuitively appealing than one large study, even if the two could be interchangeable had you divided the larger sample into three, or combined the smaller samples into 1.

基本的に出題は曖昧にした。というのも、A は漸近的にB になるのに、回答者たちはたぶんAを多く選ぶだろうと思って出題した。
confirmed hypothesis というのも曖昧にしているのは、(たぶん)頻度主義とかベイズ主義とかそういう思考立場を強制しないようにしたかったから。
successful というのは、hypothesis が再度、複数回の試験で支持されるということ。
もっとも、この質問をしようとした動機というのが、A は本質的に、B を3分割しているという点で同じものとみなせるから。3つの試験からのデータを集めれば本質的には1つの大きなサンプルサイズの試験とおなじなんだからうんぬんかんぬん。
 
というわけで、SNS もブログもコメント炎上していてすべてを追い切れないが、生物医療統計的な立場から考えるならば、N=300 * 3 の試験のほうが有用だと思う。これは、統計学・数学的に持っている情報の多寡ではなく、実際の現場での判断でのレベルの話である。
confirmed hypotheses が何を意味しているのか結局よくわからなかったが、replication でsuccessful と言っている以上、ひとつの試験で示したかった仮説を意味していると思いたい。臨床試験では、効果量を鑑みてサンプルサイズが決まるので、N=300 でsuccessful な試験はsuccessful である。N=300 の試験ひとつと、N=900 の試験ひとつでは、N=900 の試験ひとつのほうがサンプルサイズが大きく、推定精度の高い結果が得られるだろう、と思う場合が多いかもしれないが、どちらかというと「有効性を示すのにそれだけサンプルサイズが必要だった = 効果量がそもそも小さい」という印象を受ける。なので、N=300 ひとつとN=900 ひとつの論文から得られる情報量は、同等である(要検証)。
 
であれば、N=300 みっつとN=900 ひとつでは、N=300 みっつのほうがエビデンスの量は大きい。医療関係者ならば馴染みの深いエビデンスというのはひとつのRCT があれば1b, メタアナリシスがあれば1a となる。複数のエビデンス(RCT)があってもエビデンスレベルの階層は変わらないので、その意味ではN=300 みっつとN=900 ひとつのエビデンスレベルは変わらないのかも知れないが、replication がsuccessful という前提を信じていいなら、N=300 みっつはまあエビデンスレベル1a 寄りでいいのではないかと思う(要検証)。
 
出題者は「分割したのを足し合わせれば…」というようなことを言っているが、それは臨床試験で言えば中間解析にあたるし、事前に計画しない中間解析は多重検定とかp-hacking にあたるので、実験デザインの構造的にたぶんおかしいのだと思う。


さて、ものすごい適当に、平均0.16 の正規分布からN=900 サンプリングして、適当に3分割したデータを作った。これにt検定をすると、平均0 から逸脱しているかどうかが検定できる。
このシミュレーションでは、N=900 ひとつでは有意になり、かつ、N=300 みっつでもreplication successful になっている。

N <- 900
x <- rnorm(N, 0.16)
x3 <- split(x, rep(1:3, 300)) # 適当に分割
t.test(x)$p.value; mapply(function(z) t.test(z)$p.value, x3)
[1] 5.652333e-08
           1            2            3 
0.0034785068 0.0003837991 0.0036421596 

ただしこれにはからくりがあって、臨床試験でよくあるところの検出力0.8 になる効果量をいい感じに設定していて、N=900 ひとつなら0.998 になる(確かめてみればよい)。

power.t.test(delta=0.16, power=0.8, type="paired")
     Paired t test power calculation 

              n = 308.5231
          delta = 0.16
             sd = 1
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs

では、N=900 ひとつでようやく有意になるときに、N=300 みっつの試験を、N が溜まってきた時に段階的に検定するのはどうか、ということになるが、それは先に述べたように多重検定、p-hacking である。
N=900 ひとつでようやく有意になるなら、N=900 のほうがエビデンスは多く持っていそう、とも思えるが、これはこの質問の前提条件「replication でsuccessful」というのがあるので、N=300 ひとつでそもそもconfirmed hypothesis なものにN=900 も無駄に費やしているというのは、実際の世界の実験について知らなすぎかな、とも思った。
 
統計に詳しい人おしえてください。