機械学習プロフェッショナルシリーズを何冊か読んだ

読んだ。

関係データ学習 (機械学習プロフェッショナルシリーズ)

関係データ学習 (機械学習プロフェッショナルシリーズ)

ラボにあった。
関係データということでテンソル分解みたいなことから始まるのかなと思ったら、グラフ関係のスペクトルクラスタリングから始まってて、ふんふんと読んでいた。
中盤ではinfinite ralational model推しだった。Chinese restaurant process を利用して、もともとある卓に着席するか、新たに卓を設けるかを最適化すると、クラスター数が勝手に定まるのでkmeans のようにユーザーがクラスター数を決めるのに悩まくていいでしょ? って感じが売りだった。
後半はテンソルの話だった。
関係データ解析とInfinite Relational Model - Qiita
PDF
 
スパース性に基づく機械学習 (機械学習プロフェッショナルシリーズ)

スパース性に基づく機械学習 (機械学習プロフェッショナルシリーズ)

ラボにあった。
正則化といった流行りのスパース性の話だった。冒頭ではBias-variance 分解について述べてモデルの汎化性能をきちんとしましょう的なことが書いてあったし、序盤では正則化によって解の範囲がどう制限されるか、そしてL1やL2 で全体の性能がどうなるかとか、0 に落ち着くパラメータがどれくらいになるかといったシミュレーションの結果が出ていた。
中盤では正則化問題をどう最適化するかを数式でゴリゴリしていたのでちょっとついていっていないが、グループ正則化、trace 正則化、アトミック正則化ロバストPCA など知らなかった手法が紹介されていたので勉強になった。
生物医学界隈でもデータが大きくなって、全遺伝子はデータとったけどサンプル数が足りない、いわゆるp>>n 問題になるので、

p167:次元dがサンプル数nよりもずっと大きい学習/推定問題を考えている

から頭の片隅に置いとくべきである。また、GWAS みたいに多因子疾患を考えるとき、いくつかのSNP がちょっとずつ関与してなんとなくもやっと

p167:予測性能だけでなく、なぜ予測できるのかを説明できることが重要である

という感じで使いそう。
 

変分ベイズ学習 (機械学習プロフェッショナルシリーズ)

変分ベイズ学習 (機械学習プロフェッショナルシリーズ)

数式が追い切れなくて消化不良。