(臨床系の)統計解析でやらかしがちな10個のミス

読んだ。
Common scientific and statistical errors in obesity research.
Obesity (Silver Spring). 2016 Apr;24(4):781-90.
 
PNAS の特集で統計とか解析の再現性というなかで
Issues with data and analyses: Errors, underlying themes, and potential solutions
Proc Natl Acad Sci U S A. 2018 Mar 13;115(11):2563-2570.
というのを見つけて、中身を読んでいたらErrors of statistical analysis の節に

Third, it is inappropriate to compare the nominal significance of two independent statistical tests as a means of drawing a conclusion about differential effects (30). This “differences in nominal significance” [DINS (31)] error is sometimes committed in studies with more than one group, in which final measurements are compared with baseline separately for each group; if one is significant and one is not, an author may erroneously conclude that the two groups are different. We have noted, and attempted to correct, DINS errors (e.g., refs. 32 and 33).

というのを見つけて、なるほどこれは以前考えた
ある2群の比較で、介入群の前後比較では有意で、非介入群の前後比較では有意でなかったときに、このふたつの結果を比較して「介入群で有意に改善が認められた」と結論づけるのがダメなのはどうしてですか - 驚異のアニヲタ社会復帰への道
 
のことだとわかったので孫引きで彼らのグループの論文を読んでみる。

1) misinterpretation of statistical significance
p値は帰無仮説が真のとき、手元のデータを得る確率、なので、帰無仮説検定は真に解きたい疑問について答えを提供してくれない。
普通、研究者が知りたいのは、帰無仮説(でもいいけど、とにかく仮説)が真の確率、である。よくある間違いは、大きなp値は帰無仮説が真である、と結論づけてしまうこと。
 
p値が有意水準を下回らないときに、よく「n数を増やせばよりよい結果になる」という人がいるが、必ずしもそうとは限らない。というのも、分布に照らし合わせるときのT統計量は、標本平均と仮説の\mu_0 の差分をとるが、サンプルサイズn がおおきくなったときに必ずしも大きくなるとは限らないからである。
 
2) inappropriate testing against baseline values
ここで、「2群の前後比較の検定結果をもって、ふたつの結果を比較することで2郡の差のあるなしを論ずること」が間違いであることを言っている。これはDifference in Nominal Significance というようで、本文でも

Difference in Nominal Significance is Not a Significant Difference

と言っている。
 

A frequently encountered error in the obesity literature involving parallel group RCTs with pre- and post-intervention data is the use of within-group paired tests as opposed to between-group tests.

ときにこのやり方は、

This within-group approach is invalid and can have a false-positive rate for detecting a difference of up to 50% for two treatment groups (and potentially higher for more than two groups)

と言っており、2群に差がないのに「差がある」と結論づけてしまう、偽陽性の確率が50% にもなる、と言っている。
 
これを回避するには、endpoint analysis とか change score analysis とか言われる方法を使うらしい。2標本t検定や、ANOVA、ANCOVA を使うようである。
 
3) excessive and undisclosed multiple testing and "P-value hacking"
多重比較といってもfalse-discovery rate, error rate per hypothesis, error rate per family, family-wise error rate と複数あり、論文ではfamily-wise error rate に焦点をあてている。
family とはいったいなんぞや、ということだが、

testing several different outcome measures for a given intervention or risk factor

とある(単一の)介入もしくは(単一の)リスク要因があって、それに対して注目したい結果が複数存在する。
もしくは、

comparing several interventions for a single outcome measure

単一の注目している結果に対して、複数の介入を行った。
状況を指しているらしい。RCT においてはCONSORT というガイドラインで、どんな解析を何回するかを事前に宣言しないといけない。2次解析においてひたすら解析を行ってみるのは、p-hacking として有名。

P-value hacking, in which investigators run different forms of analysis on a dataset until they find results that suit them

Another way p-value hacking is introduced is through model selection procedures such as stepwise regression.

よく見かけるやつ()
 
実際のところ、多重検定に対してどうしたらいいかは定説がなくて、

Although we cannot make a definitive statement on whether it (note: multiple testing correction) should be done, we do feel that failing to disclose multiple testing, particularly iterative analysis strategies based on significance levels like p-hacking, is an error. We feel that authors must be clear about how many tests were run and how they came to their conclusions so that readers can make informed interpretations of findings.

検定を繰り返すタイプの解析に、注意は払っていますよ、という気持ちを見せておくことが重要なのではないだろうか。
 
4) mishandling of clustering in cluster randomized trials
CRT という、とある社会的集団がランダム化されて介入を受ける、というタイプの実験があるらしい。群間差と郡内差をうまく解析するのだが、自分にあまり馴染みがないので略
 
5) misconceptions about nonparametric tests
ノンパラメトリック検定のよくある誤解として、「分布がない」「事前仮定がない」「検出力がパラメトリック検定より低い」というのがあるが、いずれも間違いである。
よくある比較として、クラスカルウォリス(マンホイットニー)検定とt検定もしくはANOVA が挙げられるが、サンプルサイズが大きくなれば漸近的に近づく。
また、反復測定の実験系では、permutation するのは難しいが、仮説がゆるいとこれらの計算がむしろうまくいく、ということらしい。
 
6) mishandling of missing data
欠損値の扱いについて、よくやらかしてしまいがちな対応策が、とにかく欠損値を含むサンプルをごっそり解析対象からはずしてしまうことである。complete case や listwise deletion といってほとんどの統計ソフトに標準ではいっている。
しかしながらこのやり方は検出力の低下と間違った結論を導いてしまう。肥満研究で言うと、BMI がもともと高かったり、減量に失敗した人は調査から漏れたりドロップアウトしがちなので、こういう人を(不適切に)除外して解析すると、間違った結果を得てしまう。
次にやりがち(で、やっぱり不適切)なのが、単純に補完 single imputation することである。平均や回帰なのでimputation するが、こういった値では最終的に(欠損がなく、imputation されずに解析されたものと比較して)ばらつきが小さくなるので、そうすると小さいp値が出やすくなる。
よりよくて、柔軟性が高い方法が、multiple imputation である。これは回帰やsingle imputation の反復になるが、最近の統計ソフトには実装されていることが多いのでどうにかなる。
 
欠損値の扱いで一番なのは、欠損値が出ないようにすることであるのは言うまでもない。
 
7) miscalculation of effect sizes
メタアナリシスでeffect size を計算する。やり方はCohen d やphi 係数などいろいろあるが、「これが一番」というのは存在しない。
メタアナリシスにおいてeffect size 計算は非常に重要だが、いろいろ間違っていることがあるみたいなので、

we suggest that doing meta-analysis well requires collaboration with someone with advanced training in meta-analytic calculations.

って言っているけど、これメタアナリシスに限らずほとんどの統計解析についてそうなので元も子もない感ある()
 
8) ignoring regression to the mean
平均への回帰という現象がある。平均身長より背の高い両親から生まれた子供は背が高いかというと、両親よりかは背が低いことが多い、というやつである。
カテゴリ化して解析するときに、この平均への回帰現象がより悪い方向で生じてしまうことがあるようだ。例えば平均血圧からの差を持って正常血圧、ちょっと高血圧、高血圧群にわけたとき、高血圧群は平均からの逸脱具合が大きいので、正常群やちょっと高血圧群に比べてより大きい平均への回帰現象が生じる。
また、高血圧群は平均からの逸脱が大きいので、その次の測定は平均に近い値が測定されがちになる。何回も測定を繰り返すと平均への回帰が補正されていく。もしくは、適切に対照を選んでランダム割付することが重要である。
 
9) ignoring confirmation bias
事前に知られている事実とよく合致してしまうような結果を得た時にこそ、目の前の結果を批判的に吟味するべき。
 
10) insufficient statistical reporting
・手法と結果の記述が不十分
・primary outcome およびsecondary outcome の宣言が不明瞭
・適切な結果がないのに、因果関係を主張する言葉を使ってしまう
のは、よろしくない報告の仕方である。

Simply stating that “the general linear model was used in SAS” is inadequate.

こういうのよく見かけるやつ()
 
因果関係はRCT でなければ言葉の使い方には気をつけるべきで、

nonrandomized studies can, at best, only provide information about correlations among the variables, not causality.

Thus, the use of causal language such as ‘the effect of,” “causes,” or “influences” is not appropriate when discussing nonrandomized studies. Softening phrasing, such as “may cause,” does not ameliorate this concern. Even a phrase such as “is linked to,” which properly denotes association, has causal connotations and should be avoided. Stronger statements of the limitations of the data and the conclusions that can be drawn are needed, even when biological plausibility exists.

とかなりきつめに諌めている気がする。