2013-01-01から1年間の記事一覧

確率分布一覧と関係性

確率分布と関係性。 基本的には、いくつかのパラメータを用いて関数が記述され、あるパラメータを固定した時にXX分布がYY分布に等しい、みたいな正確な関係(exact relation)と、有るパラメータ(たいていn)を無限大に飛ばしたらZZ分布に等しくなる、みたいな…

CTM Correlated Topic Model

LDAをやってみたわけだが、トピック間の関係も考慮したCorrelated Topic Model (CTM)というものがあるらしい。 Cでしかできない?と思っていたら、これは以前紹介したtopicmodelsパッケージでできるようだ。ldaパッケージと互換性があると以前書いたのでやっ…

ベン図の要素

ベン図を描いていたのだが、各要素がどこに所属するか、Rに入ってない(!?!?)。 というわけで無理矢理作った。 library(gplots) # venn の example から oneName <- function() paste(sample(LETTERS, 5, replace=TRUE), collapse="") geneNames <- replicate…

ひとめで分かるラブライブ総選挙結果

毎度おなじみのラブライブだが、新曲のセンターポジションをめぐって何回か総選挙をしている。 wikiから総選挙結果をパクって、未発表分のメンバーの順位予想や、次回以降の順位予想をしようと思ったけど何を元に予測すればいいかちょっと難しかったので、今…

ロジスティック回帰分析

ロジスティック回帰分析という解析があるが、聞いたことはあっても実はやったことがなかったのでやってみる。 ロジスティックの式は、昔もやったが、微分方程式 を解いて となる。 解析するときは、線形回帰として を解く。これなら直線でプロットできて、こ…

初音ミクの投稿数をバースト解析

初音ミクの投稿数の時系列解析とバースト解析を組み合わせただけ。 前回は19943曲だったが、今回はVOCALONOBISというサイトから2013年5月22付で94334曲のIDを頂いたので、これでやってみる。 wgetの段階で94322曲になった。 直近1年間くらいでオワコン化が進…

バーストモデル

データの観測を続けているとき、ある時刻から急にデータが増えることがある。これをバーストといい、この瞬間を検出する手法があるらしい。 Rではburstsパッケージでできる。 データは時系列の累積和になっていて、時刻と間(隣り合わなくてもよい)でのバース…

ボカロ楽曲のニコニコ動画投稿数を時系列解析する

ニコニコ動画への投稿数を時系列解析する。 どんなときに投稿数が増減するか、またその予測をする。 事後(というか事前にもわかっていたけど)ボカロの誕生日に投稿数が跳ね上がっていた。 解析結果を見た先輩が 「この2年ほどで初音ミクの誕生日(8月31日)に…

初音ミク解析

LDAをやってみたわけだが、それなら初音ミクの歌の解析をしたいと思い そうしたら初音ミクの歌詞のデータベースがあるらしいのでそこから歌詞を抽出しようと思って そうしたら投稿日やP情報も取れることに気づいたので、時系列解析や共演関係などのネットワ…

Pythonでプログレスバー

RでやったらPythonでもやってみたくなる。 ここからパクった。 print で出す方法もあるみたいだがとりあえず progressbar モジュールを使ってみる。 from progressbar import * widgets = ["progress:", Percentage(), Bar()] maxval = 1000000 pbar = Progr…

Rでプログレスバー

Rでプログレスバーというのがあったので、やってみる。 OSがLinuxなので、 txtProgressBar を使ったが、tcltkを使うとGUIっぽいプログレスバーができるらしい。そのときは library(tcltk) tkProgressBar を使う。 n <- 10000 for(i in seq(n)){ pb <- txtPro…

デンドログラムをヒートマップのまわりに描き足す

マイクロアレイをやるのにgplotsパッケージのheatmap.2関数を使っていたのだが、デフォルトで使うと正方形のプロットになって、行と列の数が極端に異なるときに気持ち悪い。 というわけでアイマスデータベースimas1.txtを使ってやってみよう。 同じクラスタ…

トピックモデルを使ってラブライブの歌を解析する

LDAをいじってみたわけだが、これを使ってラブライブ(μ's)の歌を歌詞を解析してトピック分類してみる。 取得した歌詞33曲分を読み込んで、RMeCabで品詞分解する。 その後、LDAができるようにデータ加工する。 library(RMeCab) wd <- "/lovelive_song/" music…

トピックモデル

Latent Dirichlet allocation(LDA)というなかなか面白そうなテキストマイニングを教えてもらったのでやってみる。 最近のラノベのトピックは異世界物が多い。というかここ数年は、ツンデレ、空から女の子が降ってくるハーレム物から、難聴系・鈍感主人公がハ…

安定マッチング問題

マッチングという制度がある。いくつかの候補となるところを試験や面接を受けて採用候補者としてもらい(でも試験受けたけど候補リストに挙がらないとかあるの?)、こちらも採用してほしいところを順番に入力したら、あとはコンピューターが勝手に計算してくれ…

報告される回数が正確ではないポアソン過程的なもの

数学いらずの医科統計学PART2 CHAPTER6で、ポアソン分布に従う事象の話がある。 そこで、それぞれの事象は1回だけ数えられないといけないのだが、飛行機のニアミスがどの程度生じたか調べた研究では、お互いの飛行機の操縦士と副操縦士合わせて4人が各々報告…

初音ミク関数 その2

初音ミク関数を使って遊んでいたのだが、ツインテールしか描けなかった原因は媒介変数の範囲のようだった。 をもっと広げるとそれっぽくなった。 いろいろいじっていると、の範囲でヘビサイド関数と符号関数が体の各パーツを作っているのではないかという指…

初音ミク関数

昔おっぱい関数というものを描いたのだが、初音ミク関数というものを教えてもらった。 WolframAlphaから数式を頂戴してやってみる。 SignとHeaviside Stepという関数が必要だそうなので用意しておく。 theta <- function(t) ifelse(t != 0, ifelse(t > 0, 1,…

Rでマイクロアレイ解析

マイクロアレイの解析っぽいことをやったのだが、KEGGによるパスウェイ解析やジーンオントロジー解析までは至らなかったので、これを参考にしながらやってみる。 Bioconductorを使った講義も予定されているので、そのときにはドヤ顔できるようにしよう。 デ…

カプランマイヤー曲線のサンプル数

数学いらずの医科統計学PART2 CHAPTER2生存曲線の信頼区間を昔やったのだが、サンプル数は50程度が普通のカプランマイヤー法ではいいらしい。 けれども、第III相試験では数百〜数千の規模でデータを取っている論文がほとんどなので、50標本じゃないと対応で…

等分散の仮定とvQTL

phenotype分散について、 平均値は同じで分散が違う、というこの記事のようなデータを解析すると、どうなるんでしょう、そして、その結果とvQTLの結果とはどういう関係になっているんでしょう… という話が出たのでシミュレーションしてみる。 niter <- 2000 …

Genotypeに影響されるPhenotype分散

遺伝子座による形質の定量度の違いをquantitative trait loci (QTL)というらしい。 普通、ある遺伝子座がA→Gだと、収縮期血圧が10mmHg高い傾向にある、みたいな、平均値の変動を定量化することが多いが、分散の変動、つまり、普通アレルだと平均±5mmHgのとこ…

理解しがたい主訴(担当MO)

Semantic Qualifier:具体的に症状を説明する患者の言葉を医学用語に置き換えたもの→特異度が高いもので陰性 主訴・所見・鑑別・診断 感度が高いもので陰性←例:63M 昨夜から発赤を伴う関節の痛み→高齢者の急性関節痛 症例1 79M 夜中に夢の内容を現実と思っ…

連続する要素の数を数える

ベクトル中の連続する要素の連続数は rle で計算できる。 いま、ある塩基配列 s1 <- c("ctgactgagagactttacgtaggagggcccatcgcgccagcggggtgctaaccactagcatgggtaacaccatcacatgctatgtgaaagccctagcggcctgcaaggctgcggggatagttgcgcccacgaaagccaggggactgagaggacgagc…

factorを使ってtableしたら、ないものの数を0としてカウントしてくれる

こちらで、ある配列中のAGCTの数を数えている。 要素の数を数えるのは table がよいが、配列にないものはカウントされない。 s0 <- c("A", "G", "G", "C", "C", "C") table(s0) s0 A C G 1 3 2 リンクの行列にapplyで適応すると、長さがまちまちのリストとし…

塩基配列上での変異とアミノ酸置換 その2

塩基配列のComplexityとしてエントロピーという統計量を使うのだが、このエントロピーの定義が自分の周辺で物議を醸している。 一般的なシャノンエントロピーは だが、前の論文では、HBVのquasispeciesとして、クローン数が全部で個の配列で、配列がの割合で…

美しいペアプロット図を簡単に作る

図があまりにもきれいにしかも簡単に作れすぎて美しいペアプロット図を簡単に作るという記事をそのままパクる。 GGallyというパッケージでかんたんにかつかっこよくdata.frameのプロットができる。 library(GGally) data(tips, package="reshape") ggpairs(t…

時系列データの相関

ロトカ=ヴォルテラのような時系列変化をしているものの相関を調べたいんだけど、という相談を受けた。 それで、既にGeneNetというパッケージに目をつけているらしいのでこれをやってみる。 他、ggm, GGMselectというのもあるらしいけど時間があれば…たぶん…

大動脈瘤(担当EI)

95F 上腹部痛 認知症のため施設入所。本日突然の左側腹部痛、1分間の血圧低下。 意識消失あり、救急搬送。 ADL? 既往歴 91歳 腹部大動脈瘤指摘 92歳 僧帽弁閉鎖不全、心不全 腹部 腫瘤触知 血液検査 貧血 胸部X線 大動脈石灰化、心拡大 単純/造影CT 腹部大動…

locator 関数

高水準関数で図を描いたあとで、R Graphics Deviceをマウスでクリックしていったらその座標を返してくれる関数がある。 これを使うと、プロット点やテキストを絶妙な位置にするためにちまちまと変数をいじってはプロットしいじっては…が簡単になる。 Rで日本…