機械学習

ギブスサンプリング

Metropolis-Hastings サンプリングをやったので、ギブスサンプリングをやってみる。 ある変数 について、 番目を取り除いた を ( 番目が抜けている) で順次サンプリングして、その値を入れなおしてまたサンプリングする、を について行う。 結局、あるひと…

ものすごいわかりやすかったKullback-Leibler divergence

情報量を と置くと、 単調に減少する ふたつの分布が独立ならば、加算的に扱える というので、 と書いておく。 符号化してその平均長を考えると はエントロピーである。 さてここで、 はわからないけど、理論的にこれならば、上のエントロピーが成り立つ。し…

ランダムウォークで乱数を生成する

機械学習のTA なのに機械学習素人なので機械学習と統計の講義を聞いている。 多次元な確率分布から乱数をいい感じに取ってくる方法に、ランダムウォークを使う。 多次元な確率分布としては、単純に2次元正規分布、とする。二次元の正規分布は、x1 とx2 のそ…

logit の代わりにtanh を使ってはいけないのですか?

講義の最中にこんな質問があって、「logit は0-1 の範囲にあって、確率として扱いやすいから」という回答だったが、あとで スケールが変わっただけで本質的には同じということがアナウンスされていた。 logit は tanh は となり、これらの関係は となる。 と…

10万枚の胸部X線画像をCNNした

読んだ。 ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017 3万人の患者から10万枚程度の胸部X線画像を入手し、CNNによりAtelectasis, C…

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装

読んだ。ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者: 斎藤康毅出版社/メーカー: オライリージャパン発売日: 2016/09/24メディア: 単行本(ソフトカバー)この商品を含むブログ (18件) を見るCOI:自費で買った。著者は知り…

機械学習のための連続最適化

読んだ。機械学習のための連続最適化 (機械学習プロフェッショナルシリーズ)作者: 金森敬文,鈴木大慈,竹内一郎,佐藤一誠出版社/メーカー: 講談社発売日: 2016/12/07メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:ラボにあった。著…

岩波データサイエンス Vol.5

読んだ。岩波データサイエンス Vol.5作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2017/02/16メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:自分で買ったが著者に知り合いがいる。 岩波データサイエン…

科学技術計算のためのPython 確率・統計・機械学習

読んだ。科学技術計算のためのPython―確率・統計・機械学習作者: Jose Unpingco,石井一夫,加藤公一,小川史恵出版社/メーカー: エヌ・ティー・エス発売日: 2016/12メディア: 単行本この商品を含むブログ (1件) を見るCOI:ラボで買った。本人は全く知らない。…

機械学習プロフェッショナルシリーズを何冊か読んだ

読んだ。関係データ学習 (機械学習プロフェッショナルシリーズ)作者: 石黒勝彦,林浩平出版社/メーカー: 講談社発売日: 2016/12/07メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見るラボにあった。 関係データということでテンソル分解みた…

指数分布族

変数, パラメータ があるとき、 と表すことができる場合は、指数分布族という。ここで、exp やlog で無理やりカッコ内に指数法則を使って変換してやれば、各々の式は同じことを意味している。 ここで、 :十分統計量 sufficient statistics :natural parame…

Bias-Variance decomposition

機械学習などで予測モデルを立てたときに絶対に突っ込まれるのが「それ他のデータセットでも言えんの?」ということで、モデルの性能を評価しないといけない。一般的には手持ちのデータからモデルを作って、それとは別のデータに対してそのモデルが有用かとい…

Python機械学習プログラミング 達人データサイエンティストによる理論と実践

読んだ。 (読んでた)Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)作者: Sebastian Raschka,株式会社クイープ,福島真太朗出版社/メーカー: インプレス発売日: 2016/06/30メディア: 単行本(ソフトカバー)こ…

Deep learning を使ったグラム染色画像の細菌同定システム

Deep learning を使って、グラム染色で見えている細菌がなんの菌なのかを判定しようという試み。 実際は半年以上前に手をつけていたけど、プレリなところで終わっていて、データ取りをするのにめんどくさかったのでもうやめたので誰かやってみたらいいんじゃ…

ハロー!!きんいろ deep learning モザイク

注意:この記事は大好評放送中のハロー!!きんいろモザイクと最近話題のDeep learning をかぶせて話題沸騰!!にしたかったけれども、きんいろモザイクに出ている声優のサンプルボイス(東山奈央)が入手できず、DNNについても結局実装が間に合わずにrandom fores…

GF(仮)のキャラ画像からニーソかどうか判別する分類器をdeep learning で作ったわけだが

GF(仮)のキャラがニーソかどうか知りたかったわけだが、興味深いコメントをもらった。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElem…

GF(仮)のキャラがニーソなのかどうなのかを Deep learning を使ってなんとか知りたい

GF(仮)を見てる。 クロエ・ルメールのようなニーソキャラが好きなのだが、これをどうにかキャラプロフィールから推定できないか…と思っていたら MNIST手書き文字データをdeep learnignで分類するっていう、あの有名なやつを、Rパッケージであるh2oでやる、と…

Rで始めた医学・統計学・Bioinformatics

という本を書いた。Rで始めた医学・統計学・Bioinformatics作者: Med_KU出版社/メーカー: Med_KU発売日: 2014/03/17メディア: Kindle版この商品を含むブログ (1件) を見るアマゾンKDPから買うと文字化けするため、こちらでは買わず代わりにとらのあなかMelon…

アイマス, ラブライブ, WUG, GFのキャラ分析

ガールフレンド(仮)、ラブライブ!、シンデレラガールズ、Wake Up, Girls!のキャラ分析をやったのだが、ごく一部の熱心なファンから、これら全体で見たときにアニメ間で類似性や違いがあったりするのか、という質問を受けたのでやってみる。 その前に、月白陽…

(^q^)「くおえうえーーーるえうおおおwwwwwwwwwwwwwwwwwwwww」

(^q^)「くおえうえーーーるえうおおおwwwwwwwwwwwwwwwwwwwww」 にはまりすぎてやばいのだが、例によってガールフレンド(仮)に登場する女の子たちを解析する。 さて、解析しようと思ってざっとデータを眺めると、大好きな堀江由衣がやっ…

機械学習の性能評価

機械学習の評価として、Recall, Precision, F値, Matthews correlation coefficient (MCC)があるので、Rでできる機械学習をひたすらやって性能評価をしてみる。 今回は交差検証は行わず、データセットの全てのデータでモデルを構築して、それを元のデータに…

スクフェス予想の修正

スクフェスの楽曲属性予測をしていたわけだが、2勝2敗(これとこれとこれ)でしかも Listen to my heart!! の予想をし忘れていたということもあってやり直しておこう。ラブライブ! Webラジオ ラブライ部 ラジオ課外活動~にこりんぱな~テーマソングCDアーティス…

声優統計第二号 トピックモデルを用いたニコニコ動画コメントデータの声優トピック流行推移解析

結果 処理 DTM解析

47の心得シリーズをトピックモデルで分類する。

「本当に」医者に殺されない47の心得というシリーズ物があって、これをトピックモデルで解析する。 ざっと読んだ感じ、臨床検査と薬剤の使い方について言及しているものが多いので、こんな感じでトピックが抽出できたらいいと思う。 本当は30くらい溜まった…

またもやスクフェスの新曲属性予測が見事当たっていなかった件

スクフェスの楽曲属性予測を前にやっていて、7月1日のアップデートで追加されたススメ→トゥモロウとNo brand girlsが見事にそれぞれスマイル(S)とクール(C)だったからドヤァとか思っていたら、7月19日のアップデートで追加されたLove marginalの属性が実はスマ…

重回帰法の落とし穴

数学いらずの医科統計学PART7 CHAPTER38で、重回帰分析における過剰適合について説明している。 パラメータ取ったんならたくさん使って推定しようぜ!!というのはよくわかる気持ちだが、使い過ぎるとパラメタ間の相互作用とかなんかいろいろな都合でダメにな…

A4で分かるこのブログの半年

スクフェスの新曲属性予測が見事当たっていた件

スクフェスの楽曲属性予測をしたのだが、7月1日のアップデートで追加されたススメ→トゥモロウとNo brand girlsが見事にそれぞれスマイル(S)とクール(C)だったからうれしかったという話。 ススメ→トゥモロウ/START:DASH!!アーティスト: μ's出版社/メーカー: …

ラブライブ スクフェスの楽曲属性をCTMで予測する

トピックモデルを使ってラブライブの歌を解析したのだが、LDAの苦手な点として、各トピックを独立に設定してしまうらしい。 CTMはトピック間の関係を考慮しているので、トピック立てすぎて効率が低下、という事態が減るらしい(こちら)。 スクフェスにはスマ…

CTM Correlated Topic Model

LDAをやってみたわけだが、トピック間の関係も考慮したCorrelated Topic Model (CTM)というものがあるらしい。 Cでしかできない?と思っていたら、これは以前紹介したtopicmodelsパッケージでできるようだ。ldaパッケージと互換性があると以前書いたのでやっ…