Python機械学習プログラミング 達人データサイエンティストによる理論と実践

読んだ。
(読んでた)

COI:自費で買いました。翻訳者とは少し知り合いなだけです。原著は知りません。
 
本当はアマゾンで発売日にソッコー買って読んでたのに書評書くの放置していたらstan 神が書評していたのをバイト中に見つけてしまったので書く。
 
分類問題、データ処理、機械学習機械学習の組み合わせによるアンサンブル学習、バイアス・バリアンスの評価、解析実例紹介など、そんなにゴツくない本なのに中身は盛り沢山である。
個人的には6章のモデル評価、7章のアンサンブル学習の章がよかった。
6章のモデル評価では、クロスバリデーションの話や、バイアス・バリアンスを学習曲線としてプロットして、過学習と学習不足について検討する項や、ROC、適合率・再現率などほとんど網羅しており、手持ちのデータだけをゴニョゴニョして実際の運用性に欠ける()モデルを作りがちな自分へのいい教科書だった。
7章のアンサンブル学習では、様々な機械学習を組み合わせていくことで性能が上がることを紹介しつつも、「アンサンブルすると複雑で時間もかかるので、ここらへんの運用は実際の問題との兼ね合い」的な言及がなされているのは好感が持てる。
 
この世のすべての機械学習が網羅されているのかは知らないが、名前を聞いたことのない手法もいくつかあったので知識の整理になった。また、Python scikit-learn でほとんどのコードがすべて書いてあるので、写経するだけでも十分勉強になると思う。
ただし、Python はインデントでかなりいらつく初心者(いまだにいらつく自分は初心者)はなかなか進まないかもしれない。
 
驚くべきことに、原著の筆者はBioinformatics を学ぶ博士課程の学生であり、GitHub 上で最も影響力のあるデータサイエンティスト(死語)らしい。自称Bioinformacian () の入院患者としては圧倒的実力差を魅せつけられて辛い()