StanとRでベイズ統計モデリング

読んだ。

COI:謹 呈。激甘書評。
 
rstan の神が丹精込めて書きあげた、至高の一冊。
「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました - StatModeling Memorandum
rstan、統計モデリングをするものでこれを読んでない人は本当読んだほうがよい。
 
かつて、岩波DS vol.1 をいただいてからというものの、rstan をがんばって声優統計を書いてみたりしたが、この本は筆者の経験による、rstan を使ったり統計モデリングをしたりする際の、細かな注意点と実際のやり方があますとこなく説明されている。
その意味では、数式的に証明がどうとか、理論的にどうとか、そういう観点からの説明は少ない。そういう点は別の本で補強すればよいが、数式でゴリゴリ書いてあるのはいいとして、では実際にどうすればいいの? という点に答えている統計書は少ない(と思う)。その点では統計モデリングを実際にこう考えながらやっている、という本書は、実務のうえではよい。また、筆者は生物化学系の実験データが出るようなところでデータ分析に携わっていたようなので、(生物系の)現場から出るデータを実際に解析する苦労とか、理想と現実の妥協点の探り方だとか、そういう考え方が非常に生物医学系のデータを解析する人と親和性が高いと思う。
実務のうえではよいが、近年はR やPython などで勝手に統計、機械学習が実装されているので、「とりあえずコピペしたらこうなった」というコピペマティシャンが続出する恐れがあるのは、唯一の本書の欠点かもしれない。
 
本書の内容としては、統計モデリングでの長所、例えば自分が感心したのは、打ち切りデータの解析のところで、<25 というデータを得たときにどうするか。観測値が小さいことを言いたいのであれば、25 にそろえてしまってきびしめに検定することが古典的なやり方では可能だが、統計モデリングではこれをlp__ でモデル化できるだとか、外れ値としての様子が濃厚なデータを外れ値が許容されうる分布、例えばコーシーやt分布でモデル化するところが非常によかった。
回帰分析の悩みどころでは、rstan に限らず一般的な統計解析で悩む点が赤裸々に述べられており、そう思う。
統計モデリングの視点から確率分布の紹介では、実際に統計モデリングで考えらえれる分布の採用思考過程が書かれており、初学者にわかりやすい。収束しない場合の対処法は、rstan の経験が豊富な筆者の知恵が詰まっている。
 
統計には少し詳しい素人()なので、「これ書いてあることの8割くらいわかるわ」と思いながらも2割くらいの新しい発見があったのでサイコーである。
個人的にちょっと思ったことを言うと、rstan での練習をかねて単/重回帰などをrstan でやっているのだが、今後統計モデリングが流行ってこういうこともrstan などで解析されるようになるかというとオーバーキルな感じもするし、古典的仮説検定がまともに(少なくとも自分の属する生物医学界隈で)理解されているかというとそうでもないのにベイズ的なアレが広まるかというとそうでもないので、お勉強はしておいて来るときに備えて牙を研いでおこうぜ的なアレ。
 
謹呈されてなくても100冊くらいは買ってた(100冊はさすがにウソだけど