統計

Rule of Three: 僕のまわりではそんなことはない!

面白い話を教えてもらったので読んだ。 稀な事象の生起確率に関する統計的推測 Rule of Three とその周辺 ポアソン分布とRule of Three(統計学ワード) 上記の証拠(?)をもって「○○は存在しない!」と主張する人がときたまいるが、その人のまわりをN人探して…

oscillation (振動)を検定する

この記事は 今年読んだ一番好きな論文2017 Advent Calendar 2017 の2日目が空いているということにこの記事を書いてから気づいて、1000円相当の参加賞があることに目がくらんで加筆修正した記事です。2017年で一番好きかというとそうでm(ここで文章が途絶え…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 10話目と11話め

3年生が進路を考え、鞠莉もダイヤも果南もみんな沼津を出て海外進出する様子。 いままであまり名前を呼ばれていなかった鞠莉が人気になり、善子が孤立ノードとなった。 閉校祭をやってみんな仲良い感じ。 しかし、ダイヤさんはあいかわらず千歌からダイヤさ…

予後因子 prognostic と予測因子 predictive は何が違うのか

興味深い話を教えてもらったので読んだ。 Understanding Prognostic versus Predictive Biomarkers よく予後因子や予測因子となるバイオマーカーを探そう、という研究があるが、そもそも予後因子/予測因子とはなんぞや、という話。 現実世界においては、ある…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 9話目

saint snow の姉妹の仲がギクシャクしたのでルビィら1年生組が函館に残ってsaint snow のために歌を作ったけど、結局千歌がセンターを奪った話。 ダイヤさんの姉みがやばい。DQN ネームじゃなかったら推しにできたのに… 果南ちゃんは誰も名前を呼ばず、また…

きららフェスタ2017 に出演していた声優たちの集客力をRstan で推定する

この記事は RStudio Advent Calendar 2017 - Qiita まんがタイムきらら Advent Calendar 2017 ごちうさ Advent Calendar 2017 Stan Advent Calendar 2017 - Qiita R Advent Calendar 2017 - Qiita の3日目の配当記事です。 声優統計第9号で、きららフェスタ2…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 8話目

ピギィ多すぎ。 ダイヤとルビィの姉妹丼とキマシタワー回。 ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 1話目と2話目 - 驚異のアニヲタ社会復帰への道 ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 3話目 - 驚異のアニヲタ社会復帰への道 …

数少ない事象の比較

こんなニュースを見かけた。 https://headlines.yahoo.co.jp/hl?a=20171122-00000523-san-hlth 亡くなられた方のご冥福をお祈りします。 統計的に差がなかったから無痛分娩は安全だとか、無痛分娩はしても大丈夫だとか、そういうことをいうつもりはまったく…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 7話目

ラブライブ出場が決まったのに、入学希望者数が100人に満たない。 そこで午前5時まで期限を延ばして動向を見守るが、98人でシステムが切り替わり、結局足りなかった。 千歌はラブライブ出場への意味も見失いつつあるが、生徒たちからも後押しされて、ラブラ…

logit の代わりにtanh を使ってはいけないのですか?

講義の最中にこんな質問があって、「logit は0-1 の範囲にあって、確率として扱いやすいから」という回答だったが、あとで スケールが変わっただけで本質的には同じということがアナウンスされていた。 logit は tanh は となり、これらの関係は となる。 と…

面白そうな統計の話・論文

Crowdsourced research: Many hands make tight work 黒人サッカー選手が警告を受けやすいかを解析すると、様々な結果が出てしまうという話。 Avoidable waste in the production and reporting of research evidence 適切な疑問を設定すること、適切な研究…

Mendelian randomization

読んだ。 Public Health. 2017 Apr;145:113-119. Nat Rev Rheumatol. 2016 Aug;12(8):486-96. Biosocial Surveys. Nat Rev Genet. 2013 Jul;14(7):483-95. Mendelian randomization は何かというと、経済学などの因果推論では操作変数法と呼ばれるものを統計…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 3話目

ラブライブ予選に出場することと、学校説明会でライブをすることで入学希望者を増やそうと計画していたが、学校説明会がずれたことでラブライブ予選とダブルブッキングになってしまった。 みかん畑のみかん輸送機を使うことで、ラブライブからの学校説明会に…

とくべつけんきゅういん

某とくべつけんきゅういんの採用発表があった。 結果はお察しである。 不採択になった場合は、どれだけ評価が低かったかという数値と、応募者(応募領域内での)の順位が分かる。 このとき、評点は適当な変換がなされて、T スコアというスカラーが返ってくるが…

ラブライブ!サンシャイン!! の名前呼び合いグラフをかく 1話目と2話目

ラブライブサンシャインの2期が始まった。 昔、名前の呼び合いグラフ(これとかこれ)をやったので、今回は放送リアルタイムに各話やっていこうと思う。 1話目は学校説明会を開こうとしたが、結局廃校騒ぎになってしまい、その裏で奮闘する鞠莉にスポットがあ…

高次元データを次元削減したうえでクラスターを真面目に検出する

読んだ。 ClusterSignificance: a bioconductor package facilitating statistical analysis of class cluster separations in dimensionality reduced data Bioinformatics. 2017 Oct 1;33(19):3126-3128. オミックス解析などをすると複数パラメータの高次…

順序制約のあるrstan

推定するパラメータに順序制約があるとき、rstan ではordered、正に限定するならpositive_ordered が使える。 例えばYaegashi (J Hum Genet. 1998;43(2):85-90.)らは、出生時の染色体異常が母体年齢に応じてどう推移するかをデータを取って調べている。 ここ…

独習 統計学24講

読んだ。独習 統計学24講: 医療データの見方・使い方作者: 鶴田陽和出版社/メーカー: 朝倉書店発売日: 2013/05/29メディア: 単行本この商品を含むブログ (3件) を見るすべての医療系学生・研究者に贈る 独習統計学応用編24講 ─分割表・回帰分析・ロジスティ…

100年間の気温変化

こんな話を見かけた。 「昔の夏はもっと涼しかっただろ!」と思い、50年前の日本の気温を調べてみたところ、まさかの結果が…! | netgeek これについて言及していた人がいて、データソースがおかしい、ということのようだ。 気象庁 | 日本の年平均気温 変化…

統計的因果推論

読んだ。統計的因果推論 (統計解析スタンダード)作者: 岩崎学出版社/メーカー: 朝倉書店発売日: 2015/11/10メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見るCOI:研究室にあった。 ランダム化比較試験ができないときの、傾向スコアマッチ…

血液1滴で複数の癌が95% 早期発見できる

血液1滴を検査するだけで、各癌腫特有のmicroRNA を検出して癌であるかどうかを95% 以上の精度で判定するらしい。 https://medical-tribune.co.jp/news/2017/0724509666/ ネットでは称賛の嵐のようである。 よくよく記事を読むと、どういう理屈で癌を判定し…

ガンマ分布:癌にかかるまでの時間

ガンマ分布は、期間 ごとに1回くらい起こるランダムな事象が 回起こるまでの時間の分布としてモデル化されることがあるらしい。 ガンマ分布自体は、shape とscale (もしくは逆数のrate) のふたつのパラメータで決定される。 悪性腫瘍(いっぱんにがん)は、遺…

賭ケグルイの投票じゃんけんで蛇喰さんはどうやって芽亜里の奴隷であるクラスメイトの割合を推定したか

賭ケグルイを見ている。 黒髪ロングのプリーツスカート黒タイツのはやみんなので視聴意欲がやばい。 ここで、賭ケグルイの1話で、投票じゃんけんという変則じゃんけんで勝負する。 クラス 人がグー 、チョキ 、パー のいずれかの手を投票する。 蛇喰さんと芽…

声優統計コーパスを使ってみる

声優統計コーパスというものがある。 日本声優統計学会 プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶 音素バランス文という、音声言語研究では非常になんかいい例…

合格率60% の認定試験でほとんどの国民は一般人になれるか

虚構新聞のネタなので、一般人を試験により認定するという話は存在しません。 こんな記事を見かけた。 一般人認定試験、来年度実施を検討 「共謀罪」成立受け 共謀罪について、一般人であるかどうかの認定試験を行って、一般人か否かが決まる。ここで、「合…

single cell RNA-seq のdropout

読んだ。 MAGIC: A diffusion-based imputation method reveals gene-gene interactions in single-cell RNA-sequencing data コードはPython で書かれている。computational flowcytometry のDana Peer ラボ。RNA-seq のデータ行列が取るであろう高次元空間…

R に用意されている確率分布

Rの確率分布をやっていた。確率分布はたくさんある。 Rでデフォルトではいっているものは何があるのだろうと思って探した。R 内の確率分布に関する関数は、累積密度p、確率点q、確率密度d、乱数r が用意されていて、21個とbirthday 分布が用意してあった。た…

勾配法による最適化

ある関数があって、最小化もしくは最大化したい。これらは正負を入れ替えればよいでの最小化を考える。 いま、適当に という関数があったとする。これの最小値とそのときのの組を求めたい。 2変数なので3次元に図示するとこんな感じである。最小値はひとつ定…

N=300 の試験みっつとN=900 の試験ひとつのどっちがよいか

こんな話を見かけた。 生物・医療統計の立場的に言えば、N=300 * 3 の試験のほうがよいとおもう。 I’ve been thinking about this thought experiment:Imagine you’re given two papers. Both papers explore the same topic and use the same methodology. …

推計人口 2053年に1億人下回る

という記事があった。 国立社会保障・人口問題研究所の日本の将来推計人口(平成29年推計)というものがあったので、表1-1 総人口,年齢3区分(0〜14歳,15〜64歳,65歳以上)別人口及び年齢構造係数:[出生中位(死亡中位)推計]というネ申エクセルデータを図示…