読んだ。
- 作者: 石黒勝彦,林浩平
- 出版社/メーカー: 講談社
- 発売日: 2016/12/07
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
関係データということでテンソル分解みたいなことから始まるのかなと思ったら、グラフ関係のスペクトルクラスタリングから始まってて、ふんふんと読んでいた。
中盤ではinfinite ralational model推しだった。Chinese restaurant process を利用して、もともとある卓に着席するか、新たに卓を設けるかを最適化すると、クラスター数が勝手に定まるのでkmeans のようにユーザーがクラスター数を決めるのに悩まくていいでしょ? って感じが売りだった。
後半はテンソルの話だった。
関係データ解析とInfinite Relational Model - Qiita
スパース性に基づく機械学習 (機械学習プロフェッショナルシリーズ)
- 作者: 冨岡亮太
- 出版社/メーカー: 講談社
- 発売日: 2015/12/19
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
正則化といった流行りのスパース性の話だった。冒頭ではBias-variance 分解について述べてモデルの汎化性能をきちんとしましょう的なことが書いてあったし、序盤では正則化によって解の範囲がどう制限されるか、そしてL1やL2 で全体の性能がどうなるかとか、0 に落ち着くパラメータがどれくらいになるかといったシミュレーションの結果が出ていた。
中盤では正則化問題をどう最適化するかを数式でゴリゴリしていたのでちょっとついていっていないが、グループ正則化、trace 正則化、アトミック正則化、ロバストPCA など知らなかった手法が紹介されていたので勉強になった。
生物医学界隈でもデータが大きくなって、全遺伝子はデータとったけどサンプル数が足りない、いわゆるp>>n 問題になるので、
p167:次元dがサンプル数nよりもずっと大きい学習/推定問題を考えている
から頭の片隅に置いとくべきである。また、GWAS みたいに多因子疾患を考えるとき、いくつかのSNP がちょっとずつ関与してなんとなくもやっと
p167:予測性能だけでなく、なぜ予測できるのかを説明できることが重要である
という感じで使いそう。
- 作者: 中島伸一
- 出版社/メーカー: 講談社
- 発売日: 2016/04/20
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る