2013-01-01から1年間の記事一覧

DTM解析

DTMを行うためにコメントを文章化して lexicalize し、データ加工する。 Rに移る。w コメントは異常に多いため、w が2つ以上並ぶものは w 1つに処理する。 1つの動画に付いているコメントをつなぎあわせて文章化する。コメント 1000 以上ある動画を対象にし…

データセットと声優動画の抽出

国立情報学研究所にあるニコニコデータセットをダウンロードする。JSON形式で圧縮されている約50GBの800万動画分コメントデータである。 圧縮されたファイルは解凍しないでそのまま処理することで、HDDが300GBなくても大丈夫なようにした。 ニコニコ大百科女…

結果

タグ解析 水樹奈々が多い。2010年以降は新人が増えたので各声優のタグ占有割合は減少している。 近年では豊崎愛生、花澤香菜の伸びがすごい。 トピック解析 原稿にあったトピックを簡単に掲載する。本文は第二号をチェック。 トピック 2:アイマスラジオ・中…

声優統計第二号 トピックモデルを用いたニコニコ動画コメントデータの声優トピック流行推移解析

結果 処理 DTM解析

47の心得シリーズをトピックモデルで分類する。

「本当に」医者に殺されない47の心得というシリーズ物があって、これをトピックモデルで解析する。 ざっと読んだ感じ、臨床検査と薬剤の使い方について言及しているものが多いので、こんな感じでトピックが抽出できたらいいと思う。 本当は30くらい溜まった…

またもやスクフェスの新曲属性予測が見事当たっていなかった件

スクフェスの楽曲属性予測を前にやっていて、7月1日のアップデートで追加されたススメ→トゥモロウとNo brand girlsが見事にそれぞれスマイル(S)とクール(C)だったからドヤァとか思っていたら、7月19日のアップデートで追加されたLove marginalの属性が実はスマ…

重回帰法の落とし穴

数学いらずの医科統計学PART7 CHAPTER38で、重回帰分析における過剰適合について説明している。 パラメータ取ったんならたくさん使って推定しようぜ!!というのはよくわかる気持ちだが、使い過ぎるとパラメタ間の相互作用とかなんかいろいろな都合でダメにな…

重回帰・ロジスティック回帰。比例ハザード回帰

数学いらずの医科統計学PART7 CHAPTER37で、重回帰について説明している。 従属変数を独立変数で回帰するときの話。 多重線形回帰:アウトカムが連続的であるときに用いられる。重回帰と略されることが多い。 多重ロジスティック回帰:アウトカムが二値的な…

Eulerian pathの解

De Bruijn graphはEulerian pathであり、NP問題であるHamilton pathとは違って解ける!!らしいのだが、それができそうな PairViz パッケージがうまく動かず、しかも igraph オブジェクトではなく graphNEL というよくわからんオブジェクトにどうにかこうにか…

De Bruijn graph

De Bruijn graphというものがあるらしい。そのDe Bruijn graphを使ったゲノムアセンブリ法がこちらで解説されているように使われている。 String graphがどうこうと書いてあったが追いつけず確認する。 Rでは igraph に入っているらしい。 たぶんノード。m s…

bipartite graph

bipartite graphというものがある。 昔やったマッチング問題でいうところの、男と女はエッジを引くけど、男集団内ではカップリングはしない、という感じのグラフ。 R ではbiaprtite, networksis, igraphでできる。 networksisの finch データを使ってみる。 …

臨床研究のデザイン

臨床研究のデザインについての研究会に行ってきたのだが、実際に携わっているわけではないので用語からあやしい。 昔こんな感じで整理したのは覚えているが、今回の話はデータ取るよりも、統計解析よりもデザインが大事ですよ、ということでわかりやすい説明…

スクフェスの新曲属性予測が見事当たっていなかった件

スクフェスの楽曲属性予測を前にやっていて、7月1日のアップデートで追加されたススメ→トゥモロウとNo brand girlsが見事にそれぞれスマイル(S)とクール(C)だったからドヤァとか思っていたら、7月19日のアップデートで追加されたLove marginalの属性が実はスマ…

ベイズ的思考な遺伝相談

医師国家試験より 97I8 32歳の女性。遺伝相談のために来院した父が常染色体優性遺伝疾患に罹患している。 この疾患の浸透率(penetrance)は50%。近親婚はなく、本人は発症していない。 家系図を次に示す。第1子が発症する確率はどれか。 常染色体優性遺伝疾患…

モデル選択と最適なパラメータ数

数学いらずの医科統計学PART7 CHAPTER35で、モデルの選択について言及している。 パラメータの数が増えると、各パラメータの信頼区間が大きくなると言っているが、正直よくわからなかった。 パラメータの最適数の推定法として、AICというものが有名。Rなら回…

祇園祭の山鉾の最適巡回経路

男「今日の浴衣…きれいだよ」 女「キャッ抱いてッ」 とかいうやり取りにイラッ☆と来ているわけでは決してありません。ありません。 大事な事なので二回言いました。 祇園祭は日本の祭りのなかでもトップクラスの有名っぷりで、今もオレがプログラミングしている…

真面目に出席することがどうこう

男女差がどうこうというつもりではありません。統計学の勉強です。 講義を受けたり映画を見たりしたあと、その内容について議論するというカリキュラムがあるのだが、これに出席していたのは100人(以上いたけど詳しい人数不明)のうち9人だった。そしてその出…

A4で分かるこのブログの半年

Scan statistics

Scan statisiticsというのを聞いたのだが、空間統計学の一種らしい。 Spatial scan statistics are used to determine hotspots in spatial data, and are widely used in epidemiology and biosurveillance. In recent years, there has been much effort i…

スクフェスの新曲属性予測が見事当たっていた件

スクフェスの楽曲属性予測をしたのだが、7月1日のアップデートで追加されたススメ→トゥモロウとNo brand girlsが見事にそれぞれスマイル(S)とクール(C)だったからうれしかったという話。 ススメ→トゥモロウ/START:DASH!!アーティスト: μ's出版社/メーカー: …

転倒

40歳代F 救急車で来院。 昼食中突然持っていた茶碗を落とした。 立って歩き始めたが1-2mで倒れた。 意識もぼんやりしている。 →錐体路症状 運動麻痺のDDx 一次ニューロン 脳卒中 TIA てんかん() MS 脳炎 二次ニューロン 脊髄血管梗塞 頚椎症 GBS 主根管症候…

p値

数学いらずの医科統計学を踏まえて。 問1 新薬Xは臨床試験で有効(p=0.04)と判定された。 Xはすごくよく効く。 Xは効く。 Xは効かないこともない。 Xは効かない。 問2 新薬Xは臨床試験で有効(p=0.04)と判定された。 「Xが効く」ということが正しい確率は 0.96…

関節痛

本当に関節痛か 急性か慢性か 部位 単関節か多関節か 増悪寛解因子 随伴症状(膠原病) を確認する。 O:急性(~6w)か慢性か。急性なら感染症か反応性関節炎 P:小関節、大関節、対称性、全身性、移動性 Q:炎症症状があるか(熱感・発赤) R:放散痛 S:歩けるか、動…

CPUの温度を調べるコマンド

CPUの温度が調べられると教えてもらったのでやってみる。 sudo apt-get install lm-sensors sudo apt-get install hddtemp エラーが出まくったのでこの2つがあればいけるっぽい。 sudo sensors acpitz-virtual-0 Adapter: Virtual device temp1: +51.9°C (cr…

Ka/Ks (dN/dS) の計算

ある塩基配列の変異パターンを解析しているのだが、それでKa/Ks (dN/dS)比というモデルを勉強した。 しかしこれには計算法がたくさんあるらしい。 サンプルデータは http://evolution.genetics.washington.edu/book/primates.dna をコピペして使う。 library…

ウィル・ロジャース現象

数学いらずの医科統計学PART6 CHAPTER29の生存曲線の比較で、ウィル・ロジャース現象に触れている。 これは、2群の生存解析において、新しい検査法の出現により、悪性腫瘍がさらに早期に発見できるようになると 非腫瘍群(腫瘍が見つかっていなかった人)が、…

MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話

MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Develop…

ラブライブ スクフェスの楽曲属性をCTMで予測する

トピックモデルを使ってラブライブの歌を解析したのだが、LDAの苦手な点として、各トピックを独立に設定してしまうらしい。 CTMはトピック間の関係を考慮しているので、トピック立てすぎて効率が低下、という事態が減るらしい(こちら)。 スクフェスにはスマ…

SNP-set (Sequence) Kernel Association Test (SKAT)

SKATという手法があるらしい。 kernel methodというなんとも中二病的ネーミングの手法を用いて、レアバリアントがどうたらこうたら言っていたがちょっと追いつけなかった。 SKATをやってみる。 昔やったロジスティック回帰をやると library(SKAT) data(SKAT.…

相関係数

相関係数にはPearson, Spearman, Kendallがあるらしい。 Usage: var(x, y = NULL, na.rm = FALSE, use) cov(x, y = NULL, use = "everything", Arguments: x: a numeric vector, matrix or data frame. y: ‘NULL’ (default) or a vector, matrix or data fra…