ハイスループット、実験データの質の管理

ゲノム疫学のためのインフォマティクス2012 ハイスループット、実験データの質の管理
 
1マーカー1形質テストはサンプルがランダムであることを前提とする。
GWAS用に検定結果を補正する
バイアスのあるサンプル:構造化補正
テスト間の非独立性:多重性
同一のマーカーに対する検定、同一のサンプルを含んだテストはそれぞれ相互に独立ではない。
p値が似る←2x3の分割表が似ている←アレルが連鎖不平衡
 
補正:サンプルがランダムであることを前提としたばらつきと、ランダムでないことを前提としたばらつきとの対比で行う。
外れ値は比較するにあたって重要。
明らかな原因が確認されなければデータは捨てない。
明らかな原因が見つかった場合は、分布の美を破壊しないような形でデータを捨てる。
 
分布がずれているとき、1回検定のつもりでp値を出すと正しくない。
 
たくさんマーカーがある場合
50万回検定→Χ2値
ヒストグラム、累積図を描いてみて、こういう形なんだ…
分布を表す式がほしい→この通りなら珍しくない。
データQCで先にデータを捨てて分布を作成すると、予想がおかしくなる。
 
HWEに則っているか:HWE検定 [tex:0