統計

μ's とAqours の人気の差

こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。 というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人…

医学研究における査読者の統計レベル

読んだ。 BMJ. 2002 May 25;324(7348):1271-3. これを読んでいたら論文があったので読んでみた。 いきなり要点を書いておくと Peer reviewers often make unfounded statistical criticisms, particularly in difficult areas such as sample size and multi…

機械学習のための連続最適化

読んだ。機械学習のための連続最適化 (機械学習プロフェッショナルシリーズ)作者: 金森敬文,鈴木大慈,竹内一郎,佐藤一誠出版社/メーカー: 講談社発売日: 2016/12/07メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:ラボにあった。著…

PK戦での各試行に及ぼす影響をrstan でやってみる

PK 戦の順序が勝ちやすさに影響するか考えたかったけど、データを集めた時点で先攻が勝つ確率が50% だったので、いろいろな条件のもとでのPK の成功率を考えていた。 stan でやってみる。 PK は10人が蹴るまでに終わるとする(154試合1389回)。 各PK での成功…

PK戦の順序

こんな記事があった。簡単にいうと、PK戦は先攻有利と言われているから、先攻後攻をABABAB... とやるのではなく、途中で入れ子にしてABBAABBA... というような順序でやろう、という話である。 実際にPK戦が先攻有利かというと、先攻は6割くらい勝つらしい(PD…

EM アルゴリズムとベイズ

EM アルゴリズムとベイズという話が出てきたので、やってみる。 題材はこちら 状況としては、ABOの血液型で、どんな血液型を持っているかは観測できるが、その血液型population を生み出したアレル頻度は一体どのようなものだろうか、これを推定したい、とい…

「原因と結果」の経済学 データから真実を見抜く思考法

読んだ。「原因と結果」の経済学―――データから真実を見抜く思考法作者: 中室牧子,津川友介出版社/メーカー: ダイヤモンド社発売日: 2017/02/17メディア: 単行本(ソフトカバー)この商品を含むブログ (15件) を見るCOI:自分で買った。筆者らとは知り合いで…

岩波データサイエンス Vol.5

読んだ。岩波データサイエンス Vol.5作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2017/02/16メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:自分で買ったが著者に知り合いがいる。 岩波データサイエン…

科学技術計算のためのPython 確率・統計・機械学習

読んだ。科学技術計算のためのPython―確率・統計・機械学習作者: Jose Unpingco,石井一夫,加藤公一,小川史恵出版社/メーカー: エヌ・ティー・エス発売日: 2016/12メディア: 単行本この商品を含むブログ (1件) を見るCOI:ラボで買った。本人は全く知らない。…

薬の副作用の有無をAIが100% 的中

読んだ。 Machine learning-based prediction of adverse drug effects: an example of seizure-inducing compounds プレスリリース COI:なし 薬学も電気生理学も情報科学も何ひとつ専門ではないけど、100%予測に釣られたので書く。 seizure (けいれん)を引…

機械学習プロフェッショナルシリーズを何冊か読んだ

読んだ。関係データ学習 (機械学習プロフェッショナルシリーズ)作者: 石黒勝彦,林浩平出版社/メーカー: 講談社発売日: 2016/12/07メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見るラボにあった。 関係データということでテンソル分解みた…

性なる夜に

こんなツイートがあった。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.c…

指数分布族

変数, パラメータ があるとき、 と表すことができる場合は、指数分布族という。ここで、exp やlog で無理やりカッコ内に指数法則を使って変換してやれば、各々の式は同じことを意味している。 ここで、 :十分統計量 sufficient statistics :natural parame…

Bias-Variance decomposition

機械学習などで予測モデルを立てたときに絶対に突っ込まれるのが「それ他のデータセットでも言えんの?」ということで、モデルの性能を評価しないといけない。一般的には手持ちのデータからモデルを作って、それとは別のデータに対してそのモデルが有用かとい…

p値はawful

ここで紹介されているこの例をやってみた。 状況としてはこんな図と実験がある。 ある腫瘍細胞に薬#1 と#2 を単独もしくは両者ともにふりかける実験をする。#1 のみもしくは#2 のみふりかけた実験では対照と有意差はなく、#1#2 と同時にふりかけた場合は有意…

声優統計の統計C91版

声優統計第九号は、新刊の第九号と既刊の5-8 がまとまった論文集2 ともに完売しました。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createEl…

ベイジアンネットワーク

読んだ。 Bioinformatics. 2016 Dec 21. pii: btw807. ベイジアンネットワークをやるbnstruct というパッケージを作りましたという話。 ベイジアンネットワークをやるならbnlearn が有名だが、bnstruct は欠損値があってもできるとのこと。 Bayesian Network…

声優統計第九号 声優力

この記事は R Advent Calendar 2016 Stan Advent Calendar 2016 ごちうさ Advent Calendar 2016 まんがタイムきらら Advent Calendar 2016 の25日目の担当記事です。 C91 で声優統計ネタとして声優力を推定します。声優力とはなんぞや、という話ですが、ある…

今年読んだ一番好きな論文2016

この記事は今年読んだ一番好きな論文2016 の25日目の記事です。 今年読んだ論文ではこれがよかったです。 Computational flow cytometry: helping to make sense of high-dimensional immunology data. Nature Reviews Immunology 16, 449–462 (2016) レビュ…

Computational single cell analysis

いくつか読んだ。 FCM やsingle cell trinscriptome などの一細胞解析で、多次元行列データが得られるが、それを機械的に解析する手法をいくつかまとめて読んだ。 R で実装されているものは頑張ってみたかったが、bioconductor でインストールしてもlibrary(…

フィッシャーの正確確率検定とカイ自乗検定と尤度比検定

遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―作者: 山田亮出版社/メーカー: オーム社発売日: 2010/09/04メディア: 単行本(ソフトカバー)購入: 7人 クリック: 155回この商品を含むブログ (38件) を見る3つの検定法の比較というところで、2*2 の…

antimicrobial cycling

読んだ。 Proc Natl Acad Sci U S A. 2004 Sep 7;101(36):13285-90. antimicrobial cycling という概念がある。細菌感染症に対して抗生物質を使うのだが、うまく治療していても耐性菌は生じることもあるし、適当に使ってしまえばさらに耐性菌のリスクがあが…

Biclustering

読んだ。 Bioinformatics. 2016 Oct 6. Nucleic Acids Res. 2009 Aug;37(15):e101. Biclustering をするQUBIC という手法をR で実装しました。クッソ速いです、とのこと。 そもそもbiclustering とはなにかというと、ヒートマップクラスタリングをするときに…

iCluster: オミックスデータの統合

読んだ。 Bioinformatics(2009)25(22):2906-2912. コピーナンバー(CNV)、発現データ(mRNA)、メチル化などのオミックスデータで、症例数 に対してパラメータ数 のデータ行列が複数ある。 各々の実験を勝手にやるのは、それはそれでいいが、CNV、発現、メチル…

inheritance vector

読んだ。Am J Hum Genet. 1996 Jun; 58(6): 1323–1337. inheritance vector というものがよくわからなかったのでLander-Green algorithm とともにいくつか検索。inheritance vector と何も考えずに検索するとプログラミングのinheritance が引っかかる。 Par…

minimal Hypergeometric (mHG)

読んだ。 Cell. 2016 Sep 8;166(6):1500-1511.e9 TIL (Tumor infiltrating lymphocyte) の発現解析をして、Activate/Dysfunction の順位付けをしている。 その中でminimal hypergeometric というものがあった。 Gene Ontology 解析ではannotation が有意に出…

Archetypal analysis and principal convex hull

他のグループがやっている解析で、データ分布が四面体のように見える、という話があって、単体を多次元にフィッティングさせるような話を持ってきていた。 Archetypal analysis for machine learning and data mining ちょっとググっていたらシステム生物学…

受動喫煙による日本人の肺がんリスク約1.3倍

読んだ。 Jpn J Clin Oncol. 2016 Aug 10. 受動喫煙によって肺がんになるリスクが1.3倍ということがメタアナリシスによって示され、「ほぼ確実」から「確実」とグレードアップされましたよ、という元論文。 COI:筆者ら、国立がん研究センターとは一切関係な…

R とエクセルで解析結果が違うんですがどうしたらいいですか?

という質問を同級生から受けた。 氏いわく、リスクの有無と疾患の有無で分割表をフィッシャー検定したら、R ではp=1 でエクセルではp=0.7 だった。たぶんp=0.7 っぽいからエクセルの解析を信じたいのだけど、なぜR でp=1 になったのか、とのこと。 そしてそ…

岩波データサイエンス Vol.4 地理空間情報処理

読んだ。岩波データサイエンス Vol.4作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2016/10/15メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:編集者の一部は知り合いだけど自費で買った。 疫学研究者な…