DNA配列の違いを数値化したい。
27の標本:属ー種ー亜種と分類されている。
44の遺伝子:microRNAとtargetDNAのペア。実際は22の遺伝子ペア。
配列:500〜700塩基。
知りたいのは
Q1:標本の属性の違いが遠近に関係あるか?ないか?
Q2:遺伝子配列が種の間で保存されている程度を数値化。
遺伝子ペア配列の違いの程度をどう表すか?
S1:ATTGC
S2:ATTCC
S3:ATTCC
とすると、変異塩基を1点と数え、S1とS2なら、S2とS3なら、S1とS3ならとしてみる。
Ins/Delはどう扱うか?そもそも、Ins/Delが明確に1回あった、と数えられるかは不明。
こういうときは、先人たちがどうやってみたかを真似るor単純な計算を導入する。
microRNAとtargetDNAの比較ができる、としよう。の遺伝子ペアが
同じとは?1塩基ごとに比較して全く同じ。
違うとは?並べてみたらどこか違う。
として、、を比較してそれぞれ、がでたとすると、、を統合してスカラーとするか?もしくは、のベクトルとして扱うか?
数値が出たとして、種の行列に収まる。
これは距離行列となり、系統樹がかける。
22の遺伝子ペアについて結果が出せたとする。統合をどのようにするか?
統合して何か結果が出たとして、当初の目的の標本属性による違いを考えてみる。
には属ー種ー亜種の分類に従って系統樹が既にできているから、距離行列をもとに数値を拾う。
これから検定をしてみる。
今日の保留問題として、行いたい検定がないとき、有意差をどう出すか。
何回も検定をするとき(多重検定)のときのp値をどうするか。