Rを使いこなす

順序制約のあるrstan

推定するパラメータに順序制約があるとき、rstan ではordered、正に限定するならpositive_ordered が使える。 例えばYaegashi (J Hum Genet. 1998;43(2):85-90.)らは、出生時の染色体異常が母体年齢に応じてどう推移するかをデータを取って調べている。 ここ…

OmicCircos

読んだ。 Cancer Inform. 2014 Jan 16;13:13-20. オミックス研究では、各染色体でのCNVや遺伝子発現状態、各種統計量の定量値や分布などをずらずらっと描きたいが、横に長く描くといけてないと誰かが思ったのだろうか、丸く描くやり方がある。 これをcircos …

援助交際してそうなアニメキャラランキング2017をstanで考える

注意:本解析の結果と、実際に声優がそうであるかはまったく関係がありません。 援助交際してそうなアニメキャラランキング2016をstanで考える - 驚異のアニヲタ社会復帰への道 援助交際してそうなアニメキャラランキング2015をstanで考える - 驚異のアニヲ…

100年間の気温変化

こんな話を見かけた。 「昔の夏はもっと涼しかっただろ!」と思い、50年前の日本の気温を調べてみたところ、まさかの結果が…! | netgeek これについて言及していた人がいて、データソースがおかしい、ということのようだ。 気象庁 | 日本の年平均気温 変化…

糖質制限ダイエットを始めたらたった1日で体重が2kg減った話をしたらもっと詳しい体重推移データをもらった

ダイエットのデータを昔使って遊んだけど、元データを持っている人が更に長期のデータを公開してくれた。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t;…

声優統計コーパスを使ってみる

声優統計コーパスというものがある。 日本声優統計学会 プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶 音素バランス文という、音声言語研究では非常になんかいい例…

matlab のjet カラーを使いたい

R でいい感じのグラデーションを作ろうと思ったらたいていrainbow を使うのだが、rainbow を使うと先頭が赤、末尾が紫なので色が同系統で混同する。 matlab のjet.colors が赤〜青のグラデーションなのでよさそう、と紹介されたのだが、matlab にしかはいっ…

violinplot の上半分だけ欲しい

5000兆円ではなく、violinplot の上半分だけほしい。 上も下も同じ形なので、どちらかがあればよい。そうすれば、stan の事後分布とかにもいい感じで使える。 たぶんggplot2 にはよさそうなものがありそうだが、vioplot パッケージを流用して使おうと思った…

R に用意されている確率分布

Rの確率分布をやっていた。確率分布はたくさんある。 Rでデフォルトではいっているものは何があるのだろうと思って探した。R 内の確率分布に関する関数は、累積密度p、確率点q、確率密度d、乱数r が用意されていて、21個とbirthday 分布が用意してあった。た…

手動で細胞の動きを追跡したい

細胞でもなんでもいいが、視野内の物体の動きを軌跡として取得したい。 最近流行りのディープラーニングでは下調べが足りないがいろいろあるっぽい。しかし、これらの手法を使うにしても自前で開発するにしても、正解データと比較して性能評価が必要である。…

MeshLab を使って曲率を取得するのをバッチ処理して自動化する

3次元物体の曲率を以前やっていたのだが、自前のスクリプトに重大なミスが発覚したので、プログラミング力の高い人のプログラムから借用することを考える。 離散的な3D オブジェクトから、平均曲率とガウス曲率を計算したいが、意外とない。 と思ったらMeshL…

μ's とAqours の人気の差

こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。 というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人…

ボクセルデータから形を構成する

蛍光イメージング動画があって、そこから細胞の3次元の形を再構成したい。 手順としては、 蛍光イメージの取得:他力本願 2Dでのセグメンテーション:他力本願、大津法 セグメンテーションされた領域の抽出:openCV セグメンテーションされた領域内で欠けて…

EM アルゴリズムとベイズ

EM アルゴリズムとベイズという話が出てきたので、やってみる。 題材はこちら 状況としては、ABOの血液型で、どんな血液型を持っているかは観測できるが、その血液型population を生み出したアレル頻度は一体どのようなものだろうか、これを推定したい、とい…

性なる夜に

こんなツイートがあった。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.c…

data.frame のplot とmatrix のpairs

オブジェクトがdata.frame のとき、plot をすると2変数ずつ取ってきてplot してくれる。 plot(iris, col=iris$Species) これは各パラメータの関係をとりあえず把握するのによかった。 ただ、オブジェクトが行列のときに、data.frame に戻さないといけなくて …

ベイジアンネットワーク

読んだ。 Bioinformatics. 2016 Dec 21. pii: btw807. ベイジアンネットワークをやるbnstruct というパッケージを作りましたという話。 ベイジアンネットワークをやるならbnlearn が有名だが、bnstruct は欠損値があってもできるとのこと。 Bayesian Network…

声優統計第九号 声優力

この記事は R Advent Calendar 2016 Stan Advent Calendar 2016 ごちうさ Advent Calendar 2016 まんがタイムきらら Advent Calendar 2016 の25日目の担当記事です。 C91 で声優統計ネタとして声優力を推定します。声優力とはなんぞや、という話ですが、ある…

Computational single cell analysis

いくつか読んだ。 FCM やsingle cell trinscriptome などの一細胞解析で、多次元行列データが得られるが、それを機械的に解析する手法をいくつかまとめて読んだ。 R で実装されているものは頑張ってみたかったが、bioconductor でインストールしてもlibrary(…

Rstudio を使わない人にとってのRstudio

この記事はRStudio Advent Calendar 2016 の9日目の記事です。 Rstudio、使ってますか? 私は使っていません。 インストールはしてあります。Rstudio を使う利点は、OS が異なっても統一された解析環境を用意できることです。R 初心者にR を使ってもらう時に…

フィッシャーの正確確率検定とカイ自乗検定と尤度比検定

遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―作者: 山田亮出版社/メーカー: オーム社発売日: 2010/09/04メディア: 単行本(ソフトカバー)購入: 7人 クリック: 155回この商品を含むブログ (38件) を見る3つの検定法の比較というところで、2*2 の…

Rmd でreveal.js のhtml スライドプレゼンテーション

Japan.R 2016 が終わりました。参加された方々はお疲れ様でした。 発表者不在というなんとも謎なLT をしたやつがいたらしいですが、Rmd でRpresentation を作って自動プレゼンするやり方について。 自動プレゼン自体はppt にも実装されています。リハーサル…

Biclustering

読んだ。 Bioinformatics. 2016 Oct 6. Nucleic Acids Res. 2009 Aug;37(15):e101. Biclustering をするQUBIC という手法をR で実装しました。クッソ速いです、とのこと。 そもそもbiclustering とはなにかというと、ヒートマップクラスタリングをするときに…

iCluster: オミックスデータの統合

読んだ。 Bioinformatics(2009)25(22):2906-2912. コピーナンバー(CNV)、発現データ(mRNA)、メチル化などのオミックスデータで、症例数 に対してパラメータ数 のデータ行列が複数ある。 各々の実験を勝手にやるのは、それはそれでいいが、CNV、発現、メチル…

minimal Hypergeometric (mHG)

読んだ。 Cell. 2016 Sep 8;166(6):1500-1511.e9 TIL (Tumor infiltrating lymphocyte) の発現解析をして、Activate/Dysfunction の順位付けをしている。 その中でminimal hypergeometric というものがあった。 Gene Ontology 解析ではannotation が有意に出…

文字列を時間に変換する

ある基準時刻からの経過時間が、時:分で納められているデータがある。 これを分単位に変換して、差分を取りたいらしい。 format が決まれば、strptime で文字列を時間に整形できる。 x <- c("0:19", "1:05", "10:20") y <- strptime(x, "%H:%M") difftime(y[…

StanとRでベイズ統計モデリング

読んだ。StanとRでベイズ統計モデリング (Wonderful R)作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るCOI:謹 呈。激甘書評。 rstan の神が丹精込めて書きあげた、至高の一冊。 …

Nonlinear Regression with R

読んだ。Nonlinear Regression with R (Use R!)作者: Christian Ritz,Jens Carl Streibig出版社/メーカー: Springer発売日: 2009/02/03メディア: ペーパーバックこの商品を含むブログを見るモデル自体は指数関数モデルや濃度曲線など簡単なものが多く、ペー…

俺の果南とルビィの仲がこんなに悪いわけがない

サンシャインメンバーのセリフ回数を調べたので、そのまま名前の呼び合いグラフを作った話。 名前を呼んでいる、愛称は可。善子が自分のことを「善子ちゃうわヨハネや」というのも両方カウントしている。 ダイヤのことを生徒会長、鞠莉のことを理事長はよそ…

Distatis: 距離行列が複数あるときに元のデータの関係性を推定する

読んだ。 Proceedings of the IEEE Computer Society: International Conference on Computer Vision and Pattern Recognition. 2005. pp. 42–47. Food Quality and Preference, 2007, 18, 627–640. 複数の距離行列が与えられたとき、元のデータの関係をMDS …