数学いらずの医科統計学

NEJMに載るようなRCTでも再解析したら結果が異なるのですが??

面白い話題を見つけたので考えてみようと思ったらデータもあったのでやってみた。 ことの発端はここで 産科編 妊娠中期 妊娠中、虫歯の治療はできますか? (周産期医学 49巻13号) | 医書.jp 妊婦に歯科治療を行うと37週未満の早産が減らせるかどうかというRCT…

多カテゴリへの回帰

二値ならbinaryだが多カテゴリのときにどうするか、ということでnnet::multinomかmlogit::mlogitが使えるがnnet::multinomのほうが使いやすかった。 m <- nnet::multinom(Species ~ ., data=iris) # weights: 18 (10 variable) initial value 164.791843 ite…

legend 内部で数式を混在させながら左揃えで2行にわたってテキストを書きたい

結論から言うと、substitute 関数を使って数式を記述し、atop を分子と分母について2行にわたって記述したいテキストに対してそれぞれ使う。ただし、分数表記でいうと微妙に高さがずれるので、atop は中央の括線を書かないので気にしない、ということにすれ…

Interrupted time series analysis でARIMAを使って真面目にやる

読んだ。 Interrupted time series analysis using autoregressive integrated moving average (ARIMA) models: a guide for evaluating large-scale health interventionsInterrupted time series analysis は介入の前後でlevel(増減、つまり切片)とtrend…

メタアナリシスで、サンプルサイズが最も大きいわけではないのに、weightが最大になるのはおかしくないですか?

という質問を受けた。 結論から言うとおかしくない。メタアナリシスのweight は各研究内の分散 と研究間の分散により (fixed model の場合)もしくは(random effect model の場合) で決まるから、分散が小さい、すなわち推定精度の高い研究はweight が大…

判別分析の判別線がおかしい

という相談を受けた。 解析したいデータは2変数なので、例として 判別分析モデルの応用 がついてきたが、3変数の場合はirisを用いて データ解析・マイニングとR言語 もついてきて、こんな感じでやりたい、と言われた。0/1のtype は以下の線形モデルで表現さ…

新型肺炎の年齢階級別死亡率

新型コロナウイルス 国内感染の状況 こちらの2021年1月13日時点の各年代別感染者数と死亡者数のデータがあったので単純に推定してみる。その1 drcパッケージにあるLL.4関数は、4パラメータモデルのロジスティック曲線に当てはめる。 これで簡単にやるその2 r…

メタアナリシスっぽいので公平な入試を受けたい 令和2年版

この記事はR Advent Calendar 2020 - Qiitaの24日の配当記事です(書くネタなかったけど無理やりこじつけた メタアナリシスの解析にmeta パッケージを使っています。 令和2年版の調査結果というものを観測した。 医学部医学科の入学者選抜における公正確保等…

ハザード比

カプランマイヤーによる生存曲線をやっていてCox proportional hazard モデルによるハザード比を出そうとして、シミュレーションデータで遊んでいただけの話。 prodlim パッケージにあるSimSurv 関数は、変数X1とX2があるが、とりあえずこれらは考えず、まっ…

交互作用項のある回帰分析で標準化偏回帰係数を求めるのに標準化はいつするべきか

みたいな相談を受けた。 回帰分析は最近ほとんどしないし、そもそもしたとしても交互作用の項は変数が増えるし解釈も面倒になるのでしたことがないのが本音だが、聞かれたので考えた。 結論から言うと、変数は先に標準化して、そして積を取るようである。 ir…

新型肺炎COVID-19の厚生労働省が行なった抗体検査から集団の有病率をrstanで推定する

こんな記事を観測した。 新型コロナウイルス感染症に関する検査について|厚生労働省 Roche社とAbbott社が売っている抗体検査キットを使って、東京、大阪、宮城の住民を無作為に抽出した結果、各社での陽性陰性結果は以下のようになった、という。Roche社で…

新型肺炎COVID-19の神戸における真のIgG抗体陽性患者数をrstanで推定する

読んだ。 Estimation of seroprevalence of novel coronavirus disease (COVID-19) using preserved serum at an outpatient setting in Kobe, Japan: A cross-sectional study. | medRxiv 神戸市の入院中の患者で、入院中の検査を適当(ランダムサンプリン…

東京大学での式辞の統計問題を考える

こんな話を見かけた。ちなみに式辞は読んでない。 qiita.comデータ取得まではやってくれていて、解析もしていた。解析者では、東京大学、鳥取大学、島根大学の医学部での男女合格率には差がない、ということだった。 せっかく81大学の男女受験者数と合格者数…

VARで本当にPKが多くなっているのか

ロシアW杯でVAR が導入されたことにより、PK の数が多いような印象である。実際、予選リーグの時点で過去最高だとか、いろいろ言われている。毎日新聞によると https://mainichi.jp/articles/20180703/ddm/035/050/161000c VARは、得点▽PK▽レッドカード…

決勝トーナメントに向けて初戦が大事というが初戦はどれくらい大事なのか

2018FIFAワールドカップが始まった。日本の決勝トーナメント進出は初戦に勝利できるかにかかっている! とかなんとかよく聞くが、実際に初戦に勝利するのはどれだけ大事かは定量的に言われていない気がする。 2002年と2010年に決勝トーナメントに進出したので…

DNA型が一致しないときに突然変異ということで一致判定できるか

こんな記事を見かけた。 http://www.yomiuri.co.jp/national/20180511-OYT1T50044.html 判例 平成29(あ)882 困惑している人が多い。 意外と知られていない知識「突然変異によるDNA型の変化はまれにある」裁判での逆転有罪の科学的根拠に驚きの声 - Togetter …

アンケート調査でN数はいくら必要なのか

こんな話を見かけた。 window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/w…

時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装

読んだ。時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装作者: 馬場真哉出版社/メーカー: プレアデス出版発売日: 2018/02/14メディア: 単行本この商品を含むブログ (3件) を見るCOI:自費で買った。 時系列分析とRstan を使った状態空間モデルの…

(臨床系の)統計解析でやらかしがちな10個のミス

読んだ。 Common scientific and statistical errors in obesity research. Obesity (Silver Spring). 2016 Apr;24(4):781-90. PNAS の特集で統計とか解析の再現性というなかで Issues with data and analyses: Errors, underlying themes, and potential so…

帰無仮説検定で有意になった項目についてROC 解析をしてください

と査読で言われた。 状況設定としてはこんな感じである。いま、とある検査項目 (連続量)について、予後を予測するマーカーになるか検討したい。ここで、デザインとしてはとりあえず研究を立ち上げてみました、というような後ろ向き観察研究で、予後転帰が…

Rule of Three: 僕のまわりではそんなことはない!

面白い話を教えてもらったので読んだ。 稀な事象の生起確率に関する統計的推測 Rule of Three とその周辺 ポアソン分布とRule of Three(統計学ワード) 上記の証拠(?)をもって「○○は存在しない!」と主張する人がときたまいるが、その人のまわりをN人探して…

oscillation (振動)を検定する

この記事は 今年読んだ一番好きな論文2017 Advent Calendar 2017 の2日目が空いているということにこの記事を書いてから気づいて、1000円相当の参加賞があることに目がくらんで加筆修正した記事です。2017年で一番好きかというとそうでm(ここで文章が途絶え…

予後因子 prognostic と予測因子 predictive は何が違うのか

興味深い話を教えてもらったので読んだ。 Understanding Prognostic versus Predictive Biomarkers よく予後因子や予測因子となるバイオマーカーを探そう、という研究があるが、そもそも予後因子/予測因子とはなんぞや、という話。 現実世界においては、ある…

数少ない事象の比較

こんなニュースを見かけた。 https://headlines.yahoo.co.jp/hl?a=20171122-00000523-san-hlth 亡くなられた方のご冥福をお祈りします。 統計的に差がなかったから無痛分娩は安全だとか、無痛分娩はしても大丈夫だとか、そういうことをいうつもりはまったく…

独習 統計学24講

読んだ。独習 統計学24講: 医療データの見方・使い方作者: 鶴田陽和出版社/メーカー: 朝倉書店発売日: 2013/05/29メディア: 単行本この商品を含むブログ (3件) を見るすべての医療系学生・研究者に贈る 独習統計学応用編24講 ─分割表・回帰分析・ロジスティ…

血液1滴で複数の癌が95% 早期発見できる

血液1滴を検査するだけで、各癌腫特有のmicroRNA を検出して癌であるかどうかを95% 以上の精度で判定するらしい。 https://medical-tribune.co.jp/news/2017/0724509666/ ネットでは称賛の嵐のようである。 よくよく記事を読むと、どういう理屈で癌を判定し…

N=300 の試験みっつとN=900 の試験ひとつのどっちがよいか

こんな話を見かけた。 生物・医療統計の立場的に言えば、N=300 * 3 の試験のほうがよいとおもう。 I’ve been thinking about this thought experiment:Imagine you’re given two papers. Both papers explore the same topic and use the same methodology. …

フィッシャーの正確確率検定とカイ自乗検定と尤度比検定

遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析―作者: 山田亮出版社/メーカー: オーム社発売日: 2010/09/04メディア: 単行本(ソフトカバー)購入: 7人 クリック: 155回この商品を含むブログ (38件) を見る3つの検定法の比較というところで、2*2 の…

受動喫煙による日本人の肺がんリスク約1.3倍

読んだ。 Jpn J Clin Oncol. 2016 Aug 10. 受動喫煙によって肺がんになるリスクが1.3倍ということがメタアナリシスによって示され、「ほぼ確実」から「確実」とグレードアップされましたよ、という元論文。 COI:筆者ら、国立がん研究センターとは一切関係な…

R とエクセルで解析結果が違うんですがどうしたらいいですか?

という質問を同級生から受けた。 氏いわく、リスクの有無と疾患の有無で分割表をフィッシャー検定したら、R ではp=1 でエクセルではp=0.7 だった。たぶんp=0.7 っぽいからエクセルの解析を信じたいのだけど、なぜR でp=1 になったのか、とのこと。 そしてそ…