遺伝医学

アレルとgenotype の頻度を信頼区間付で求めたい

という質問を受けたので1万年と2000年ぶりくらいに遺伝統計やった。 雰囲気としては、こんな感じの値を求めたい。Indian J Endocrinol Metab. 2014 Nov-Dec; 18(6): 850–854. のTable 1 より引用www.ncbi.nlm.nih.gov ここで、データとしては被験者たちのgen…

就学年数が長いから近視になるのか近視になるから就学年数が長いのか

読んだ。 BMJ. 2018 Jun 6;361:k2022. 観察研究では、どちらも関連があるが、この論文の結論から言えば就学年数が長いから近視になり、近視だから就学年数が長い、ということにはならない。これを近視に関する多型でメンデリアンランダマイゼーションした場…

DNA型が一致しないときに突然変異ということで一致判定できるか

こんな記事を見かけた。 http://www.yomiuri.co.jp/national/20180511-OYT1T50044.html 判例 平成29(あ)882 困惑している人が多い。 意外と知られていない知識「突然変異によるDNA型の変化はまれにある」裁判での逆転有罪の科学的根拠に驚きの声 - Togetter …

遺伝統計学と疾患ゲノムデータ解析

書いた。 遺伝統計学と疾患ゲノムデータ解析 COI:著者謹呈。編集者とはズブズブの関係。 序文を引用すると、 学問の学びの最初の一歩は,背景となる基礎理論の丁寧な理解から始まる。第1章では,遺伝統計学の基礎理論について,日本を代表する専門家の先生方…

logit の代わりにtanh を使ってはいけないのですか?

講義の最中にこんな質問があって、「logit は0-1 の範囲にあって、確率として扱いやすいから」という回答だったが、あとで スケールが変わっただけで本質的には同じということがアナウンスされていた。 logit は tanh は となり、これらの関係は となる。 と…

awk を使って行の要素がすべて0 の行を除外する

RNAseqをしているが、行に5つくらいのデータがあって、それらすべてが0 の行を取り除きたいのだが、いい方法はないかと聞かれた。 列和であれば、$2 とかしてすぐに結果が出せるのはぐぐってよく出る。 しかし、行和をどうこうするのはなかなか出てこない。 …

面白そうな統計の話・論文

Crowdsourced research: Many hands make tight work 黒人サッカー選手が警告を受けやすいかを解析すると、様々な結果が出てしまうという話。 Avoidable waste in the production and reporting of research evidence 適切な疑問を設定すること、適切な研究…

Mendelian randomization

読んだ。 Public Health. 2017 Apr;145:113-119. Nat Rev Rheumatol. 2016 Aug;12(8):486-96. Biosocial Surveys. Nat Rev Genet. 2013 Jul;14(7):483-95. Mendelian randomization は何かというと、経済学などの因果推論では操作変数法と呼ばれるものを統計…

awk を使ってターミナル上で必要な部分の列和を計算する

SNP とかなんでもいいのだが、行列データがあって、ある列のデータのうち条件をみたすものだけを抽出して、和を取りたい。 それをR とかPython を使わずに、シェルというかawk で完結したいのだが、という悩みを同僚が言ってきたのでやってみた。 一発でsum …

OmicCircos

読んだ。 Cancer Inform. 2014 Jan 16;13:13-20. オミックス研究では、各染色体でのCNVや遺伝子発現状態、各種統計量の定量値や分布などをずらずらっと描きたいが、横に長く描くといけてないと誰かが思ったのだろうか、丸く描くやり方がある。 これをcircos …

EM アルゴリズムとベイズ

EM アルゴリズムとベイズという話が出てきたので、やってみる。 題材はこちら 状況としては、ABOの血液型で、どんな血液型を持っているかは観測できるが、その血液型population を生み出したアレル頻度は一体どのようなものだろうか、これを推定したい、とい…

inheritance vector

読んだ。Am J Hum Genet. 1996 Jun; 58(6): 1323–1337. inheritance vector というものがよくわからなかったのでLander-Green algorithm とともにいくつか検索。inheritance vector と何も考えずに検索するとプログラミングのinheritance が引っかかる。 Par…

医学・生命科学研究に使える遺伝統計関連のデータベース

遺伝統計夏の学校というものに来ている。 データベースが増えすぎていてすべてはもちろんわからないので、知った時に知識を増やしておこう。 スライドより一覧。 ゲノム・遺伝子情報のWebツール UCSC Genome Browser https://genome.ucsc.edu/cgi-bin/hgGate…

HWE とLD

アレルA とアレルa がある。 アレルA の存在確率がのとき、アレルa の存在確率はである。 1世代交配して得られる遺伝子型はである。 これは、アレルA とアレルA を持つ者同士は強制的に子孫残してね、というような神の見えざる手が働かない、つまり、完全に…

塩基のIUPAC表記

塩基はACTG の4文字からなるが、C もしくはG のように代替パターンがあるときにS などの表記がIUPAC で決まっている。 seqinr パッケージの関数でできて、 C/G がS であることを確認するにはbma, S がC/G であることを確認するにはamb を使う。 amb(c("s")) …

Multiple alignment

Multiple alignment してほしいんだけど、と言われて系統樹まで作った話。 遺伝的距離や系統樹についてはこちらが詳しいし、塩基配列の変化パターンによる重み付けについては昔やった。 Multiple alignment はClustal がよく言われるが、ClustalW2を使ってみ…

海の人間と陸の人間の遺伝学

凪のあすからで、「海と陸の人間との間に生まれた子供は海中では生きていけない」という設定があるのだが、海の人間であるみおりと、陸の人間である至のこどもである美海が、急に海の中で息ができるようになったので遺伝学的に考察する。 家系図の作成にはki…

Multifactor Dimensionality Reduction (MDR)

Multifactor Dimensionality Reduction(MDR)という手法がある。意味のある組み合わせを考えたいが、組み合わせ爆発が起こるのでうまくbin化しながら考えるようなイメージだと思った。これを遺伝医学に応用した話。 Am J Reprod Immunol. 2013 Jul 31. RではM…

ベイズ的思考な遺伝相談

医師国家試験より 97I8 32歳の女性。遺伝相談のために来院した父が常染色体優性遺伝疾患に罹患している。 この疾患の浸透率(penetrance)は50%。近親婚はなく、本人は発症していない。 家系図を次に示す。第1子が発症する確率はどれか。 常染色体優性遺伝疾患…

Scan statistics

Scan statisiticsというのを聞いたのだが、空間統計学の一種らしい。 Spatial scan statistics are used to determine hotspots in spatial data, and are widely used in epidemiology and biosurveillance. In recent years, there has been much effort i…

Ka/Ks (dN/dS) の計算

ある塩基配列の変異パターンを解析しているのだが、それでKa/Ks (dN/dS)比というモデルを勉強した。 しかしこれには計算法がたくさんあるらしい。 サンプルデータは http://evolution.genetics.washington.edu/book/primates.dna をコピペして使う。 library…

SNP-set (Sequence) Kernel Association Test (SKAT)

SKATという手法があるらしい。 kernel methodというなんとも中二病的ネーミングの手法を用いて、レアバリアントがどうたらこうたら言っていたがちょっと追いつけなかった。 SKATをやってみる。 昔やったロジスティック回帰をやると library(SKAT) data(SKAT.…

Genotypeに影響されるPhenotype分散

遺伝子座による形質の定量度の違いをquantitative trait loci (QTL)というらしい。 普通、ある遺伝子座がA→Gだと、収縮期血圧が10mmHg高い傾向にある、みたいな、平均値の変動を定量化することが多いが、分散の変動、つまり、普通アレルだと平均±5mmHgのとこ…

塩基配列上での変異とアミノ酸置換 その2

塩基配列のComplexityとしてエントロピーという統計量を使うのだが、このエントロピーの定義が自分の周辺で物議を醸している。 一般的なシャノンエントロピーは だが、前の論文では、HBVのquasispeciesとして、クローン数が全部で個の配列で、配列がの割合で…

塩基配列上での変異とアミノ酸置換

J Hepatol. 2009 May;50(5):895-905 HBVの薬剤応答具合と逆転写酵素領域の配列の変化をモデル化して考えた論文。 治療開始後48週間後では、反応が良かった群で治療開始前の塩基配列と比べて複雑度と多様度が減少している、ということらしい。 その数理モデル…

伊藤誠で作成しようと思ったら沢越止のほうが鬼畜だと気づいた

昔、家系図を作成したのだが、某業界で有名な一家の家系図をRで作成したいと思った。 ここやここを参考にデータ入力し、作図した。 もっと色づけとかやりたかったけど保留。 こんな家系の家族歴問診は激ムズだろう。 library(kinship) school_days_cast <- s…

家系データのシミュレーション

家系データをシミュレーションするセミナー 遺伝学をシミュレーションする上で必要な用語について

第五回

今回の話 パラメーターで表すこと モデルを立てる パラメータ:本当に知りたいことを変数Xにおいてみる Xを知るために:実験しましょう。観測するのは別のこと。 X←Y(数えられるもの):何かしらの関係振り返ってみて 塩基 X:種間の差 Y:塩基配列の違い Y…

第四回 多重検定とp値補正

前々回 DNA配列比較 コーディング配列とRNA配列の評価は違う(かも) 前回 細胞に介入 タンパクの発現量を変える 表現型に違いが出るか 介入したかしないか、と表現型、を比較しているのではなくて 発現量、と表現型、の比較になっている→量的関係の回帰直線…

相関解析

遺伝子1座に2つのアレルがあって、優性遺伝をしているある遺伝病を考える。 :遺伝的要因に関係なく病気になる人の頻度。表現型模写phenocopyという。 :浸透率。観察可能な変異遺伝子が表現型として発現するかしないかという現象のことをいうらしい。 :疾…