心不全の心血管イベント発症率を予測するモデル()

読んだ。
The impact of creating mathematical formula to predict cardiovascular events in patients with heart failure.
Sci Rep. 2018 Mar 5;8(1):3986.
プレスリリース
COI：なし
　
慢性心不全患者の血液検査、診察所見、検査データなどから、心血管イベントによる再入院もしくは死亡の確率を高精度に予測する数理モデルを作った、という話。
　
モデル探索では、402個あるデータのうち252個を選んで、167人の患者で心血管イベントが起こるまでの日 $\tau$ について、パラメータセット $\bf{x}$ により
$\tau=f(\bf{x})$ 　…※
という単なる回帰モデルを考える。これにより、患者 $i$ のイベントが起こる確率は指数分布でモデル化して
$p_i(t)=\frac{1}{\tau_i}\exp(-\frac{t}{\tau_i})$
になる。このモデルパラメータ $\tau$ はそのままカプランマイヤーのパラメータなので、曲線が引けるようになる。
(152人の患者に16人足して167人が対象、というのが意味不明）
パラメータセットは多すぎるのでL1 正則化によって最終的に50個のパラメータを選び出してきている。このパラメータセットと、回帰係数は表2にまとまっている。

　
validation セットの213人でこの50個モデルを使ってKM曲線（というよりパラメータが決まっているのでもはや関数としての曲線）を実際のデータと比較して、goodness-of-fit 検定をして決定係数を有意かどうかの指標、にしているらしい。
これで比較して「KM と予測曲線はsignificantly に近く、決定係数はP=0.0784」と図2に書いてある。
　
P の意味するものが不明確である。p値であるとするならば、goodness-of-fit で棄却されなかったことを持って「当てはまりがよかった」というのは、帰無仮説検定としてはダメである。
P が決定係数であるとするならば、一般に決定係数が意味するところを考慮すると、推定曲線は実際のデータから推定されたKM を7.84% しか説明しない、ということになる。
いずれにしろ、「心血管イベントの発生確率を予測」には不十分と思う。
　
さて、予測する数理モデル、と言っているので、実際のモデルを眺めてみる。やっていたことは、※で表される式の正則化で、心血管イベントまでの日数を推定しているので、（適当に変換がはいって）係数が正ならば予後が悪い、負ならば予後がいいほうへ寄与する。例えば、虚血性心疾患（IHD）に起因する心不全は予後不良（10.842）、家族が多いと予後良好（-0.525）などが本文中で言及されている。
これらの中で、どう考えてもおかしいのがBNP（-0.826）である。退院時にはBNP が高いほうが心血管イベントに対しては予後がいい、という結果になっている。循環器内科としてこれを見逃してるのはやばいと思う。BNP が高いと予後不良と同グループが言っているが、これはいったいどういうことなのだろうか() また、下腿浮腫（-0.692）というのもなんだかなあ、という印象。
筆者らはdiscussion で「各パラメータは複雑に絡み合っているため、ここで捉えるというより50個のパラメータのネットワークで考えるべき」みたいなことを言っているが、50個のパラメータセットを提唱するならばそれなりのネットワークを考察するべきではなかろうか。そうでなければ「心房細動があって脳梗塞があってCOPDでARでCRP/AST/BNP が高くて抗炎症薬、抗甲状腺薬、胃腸薬、PPI、鎮静薬を飲んでいると予後良好」ということになるが、これは一体どういうことなのだろうか。

　
ということで、上記で言っていることは多重共線性に起因すると思われるのだが、L1 正則化では効果があるか、ゼロか、で変数選択が行われがちなので、相関がある変数セットのなかでは、ただひとつの変数が選択される、らしい。
（ぐぐってブログをいくつか流し見した程度なので理論的な保証はここではまったくない）
しかし、ある変数が3つ以上の相関している変数セットに含まれているとき、いったいどの変数が正則化で選ばれるのかは、不勉強なのでよくわからないし、選ばれた50個の変数を見る限り、浮腫とBNP は相関高いと思われるし、なんだかなあ、という印象。
　
個々の心血管イベントを予測、という割には、途中でKM と予測曲線の分布の差をKL の最小にするようなパラメータを求めていたりして、本当に個人の予測なのか、集団として生存曲線をfit させているのか、ちょっとよく理解しきれなかった。