Rpackage

wordcloud

文章がいくつかあってなんか面白いことできないかと聞かれたのでwordcloudはどうですかと言ったものはいいが、やったことがなかったのでやってみる。 wordcloudでできる。 library(wordcloud) library(tm) data(SOTU) corp <- SOTU corp <- tm_map(corp, rem…

立体棒グラフ

クロス集計などで行列を作ったとき、「エクセルみたいに棒グラフ並べたやつ作ってよ」と頼まれたので探したらepadeパッケージでできるようだ。 persp関数と違って視野をうまくまわせないっぽいので引数のxwとzwをなんとかいじくってごり押しする。また、ラベ…

二次元キャラの分化(成長)を多次元データ解析法で真面目にやってみる

SPADEが使いやすくなったので、二次元キャラのプロフィールデータを多次元データとみなして、年齢とプロフィールがどう変わっていくのかをながめた。 グラフレイアウトが前回と変わっているが、左上がロリで右下が年を取っていっている感じ。年齢の作用が強…

SPADEを使いやすくする

SPADEを昔やったけど、免疫システムの多次元データ解析という総説があって、「FCSの高次元データ、とりあえずSPADE使ってみなよ」的なことが書いてあったのだが、BioconductorのSPADEはFCSデータ専用感が満載なので、行列データが生で存在していても使えるよ…

海の人間と陸の人間の遺伝学

凪のあすからで、「海と陸の人間との間に生まれた子供は海中では生きていけない」という設定があるのだが、海の人間であるみおりと、陸の人間である至のこどもである美海が、急に海の中で息ができるようになったので遺伝学的に考察する。 家系図の作成にはki…

ぼくのかんがえた さいきょうの せいゆう キャスティング

声優統計第一号で、アニメの内容及びキャスティングを用いないDVD売上予測問題というのをやっていたのだが、円盤売上と声優出演データが取れたらやってみたいと思っていたところ、声優さん共演関係など解析という記事を見つけたのでやってみる。 声優統計第…

声優統計第三号 複数の声優によるセリフの音響的類似性の考察:不愉快です

この記事はR Advent Calendar 2013の12月29日の配当記事です。 境界の彼方というアニメで私の大好きな種田梨沙さんがメインヒロインである栗山未来を演じている。 作中で「不愉快です」というセリフが口癖らしく、いたるところで出てくるが、このセリフ、栗…

ニコニコ動画のボーカロイド共演ネットワーク

VOCALOIDのタグを付けて投稿される動画は爆発的に増えている。 タグの共起を抽出してネットワークを描いた。初音ミクが中心にくることは予想に難くないので初音ミクのところを拡大した。 共演ネットワークはいわゆる複雑ネットワークになるだろうと思ったら…

Rで音声解析

またコミケでの声優統計ネタで声優の音声解析をやろうと思った。 昔Rで音声解析をやろうと思ってやったら.wavが読み込めなくて諦めていたが実は loadSample ではなく readWave もしくは readMP3 だとうまくいくことに気づいたのでやってみる。 ubuntuででき…

Twitter解析

声優統計第三号がC85に当選となったのでネタとしてはTwitterを解析しようと思った。 ということでまずはデータ取り(タイムライン取得)をやる。 結論としてはRでやるよりPythonでやるほうがよかった。あとはAPIがバージョンが変わったとかなんとかでたくさん…

就職活動の結果

就職活動の結果が出たわけだが、やはり都市部では人が多く、東北日本海側で人手不足だった。 愛知で50%のフルマッチ、宮崎県ではフルマッチしたプログラムは0件だった。 前回の中間発表で熊本県が謎の人気だったが、今回もフルマッチ病院が多めだったようだ。…

機械学習の性能評価

機械学習の評価として、Recall, Precision, F値, Matthews correlation coefficient (MCC)があるので、Rでできる機械学習をひたすらやって性能評価をしてみる。 今回は交差検証は行わず、データセットの全てのデータでモデルを構築して、それを元のデータに…

2変数プロット

bagplotというのを聞いた。aplpackパッケージでできるらしい。 library(aplpack) dat <- cbind(rnorm(100)+100, rnorm(100)+300) dat <- rbind(dat, c(105, 295)) plot(dat) bagplot(dat,factor=2.5,create.plot=TRUE,approx.limit=300, show.outlier=TRUE,s…

ネットワークのコミュニティ

ネットワークのコミュニティ検出をやろうやろうと思って長らく放置していたのでやる。 重複がないコミュニティはigraph, 重複があるコミュニティはlinkcommでできるので、重複があるほうをする。 linkcomm クラスというのができるので扱いにくいかと思ったら…

サンプルサイズ

数学いらずの医科統計学PART7 CHAPTER43で、サンプルサイズについて書いてある。 パッケージならpwr、デフォルトならpower.*.test関数群でできる。 最近はやりのびっぐでーたなら、メモリに乗ってPCで解析できる分だけとにかく持っているデータを使えばいい…

Directed random walk

グラフにおけるDirected random walkの話。Bioinformatics. 2013 Sep 1;29(17):2169-77. RではKEGGと組み合わせて iSubpathwayMiner というパッケージでできるらしい。

就職活動希望先の地域差

おなじみのspsurveyを使ってプロットしてみる。 とある業界の就職活動で、病院ごとに定員があって、どれだけの人が第一順位で志望を提出しているかのデータがある。 これを各都道府県ごとに、どの都道府県で人数が定員に対して足りているか(人気)というのが…

SPADE続き

SPADEをFCMのサンプルデータにやってみたわけだがやっただけで中身は保留。 たぶんFSC.Hで高いところ(ネットワークの赤いノード)がこんな感じに対応している。

二次元のヒストグラム

2変数のときにx軸とy軸でヒストグラムを描きたいと思った。 layoutを用いてゴリ押しもいいけど、パッケージを用いてできるらしいのでやった。 これでマイクロアレイやFCMで分布がわかりやすくなる。

Cyto Spanning tree Progression of Density normalized Events (SPADE)

SPADEという細胞分化の分岐図を描く手法を教えてもらったのでやってみる。 FCMから得られたデータを使う。 デフォルトだと出力が pdf にしかならなくてイラッ☆としたのでノードのサイズを取得して igraph でゴリ押しした。 library(spade) library(flowViz) …

RGoogleMapでGoogleと連携してiPhone5sの繋がりやすさをプロットする

注意 au iPhone5ユーザーだがパケット通信をしないのでその会社に思い入れがあるわけではない。 調査会社はauの子会社の模様(2ch調べ)らしいのでバイアスはある。 ステマではありません。 iPhone5sが発売になったわけだが、docomo, au, softbankの3キャリア…

Rでフローサイトメトリー(FCM/FACS)

フローサイトメトリー(FCM)という実験がある。これは、細胞表面に抗原があるのを抗体反応で標識して、標識された細胞に光を当てて抗体反応が起きていたか、つまりその抗原が存在するかを識別する実験である。 実験機器が許す限り、抗原標識は可能で、たいて…

Tokyo.R#33に行ってきた

Tokyo.R#33に行ってきたのでメモ。 Rで計量時系列分析 forecast:単変量時系列データモデリングと予測。ARIMA自己回帰和分移動平均過程 vars:多変量時系列モデリング・予測・因果性の推定。Granger因果性検定 causality tseries:単位根と見せかけの回帰 ur…

分散拡大係数 VIF

数学いらずの医科統計学PART7 CHAPTER38で、重回帰分析における過剰適合について説明しているのをみて、変数選択のシミュレーションをした。 今回は分散拡大係数 (VIF)について。 決定係数を用いて、を計算した時、10を超えているとかなり多重共線性が怪しい…

項目応答理論

項目応答理論というものを知ったのでやってみる。 試験の結果に対して使うのが一般的だが、医学的に、特に遺伝子的に何か使ってないかと思ってPubmedで探したけれども、試験結果に使ったものが多くてSNP系にはなかった。 それでどう使おうかと考えてみたわけ…

Multifactor Dimensionality Reduction (MDR)

Multifactor Dimensionality Reduction(MDR)という手法がある。意味のある組み合わせを考えたいが、組み合わせ爆発が起こるのでうまくbin化しながら考えるようなイメージだと思った。これを遺伝医学に応用した話。 Am J Reprod Immunol. 2013 Jul 31. RではM…

重回帰法の落とし穴

数学いらずの医科統計学PART7 CHAPTER38で、重回帰分析における過剰適合について説明している。 パラメータ取ったんならたくさん使って推定しようぜ!!というのはよくわかる気持ちだが、使い過ぎるとパラメタ間の相互作用とかなんかいろいろな都合でダメにな…

Eulerian pathの解

De Bruijn graphはEulerian pathであり、NP問題であるHamilton pathとは違って解ける!!らしいのだが、それができそうな PairViz パッケージがうまく動かず、しかも igraph オブジェクトではなく graphNEL というよくわからんオブジェクトにどうにかこうにか…

De Bruijn graph

De Bruijn graphというものがあるらしい。そのDe Bruijn graphを使ったゲノムアセンブリ法がこちらで解説されているように使われている。 String graphがどうこうと書いてあったが追いつけず確認する。 Rでは igraph に入っているらしい。 たぶんノード。m s…

bipartite graph

bipartite graphというものがある。 昔やったマッチング問題でいうところの、男と女はエッジを引くけど、男集団内ではカップリングはしない、という感じのグラフ。 R ではbiaprtite, networksis, igraphでできる。 networksisの finch データを使ってみる。 …