対象データの把握と知りたいこと

DNA配列の違いを数値化したい。
27の標本:属ー種ー亜種と分類されている。
44の遺伝子:microRNAとtargetDNAのペア。実際は22の遺伝子ペア。
配列:500〜700塩基。
 
知りたいのは
Q1:標本の属性の違いが遠近に関係あるか?ないか?
Q2:遺伝子配列が種の間で保存されている程度を数値化。
 
遺伝子ペア配列の違いの程度をどう表すか?
S1:ATTGC
S2:ATTCC
S3:ATTCC
とすると、変異塩基を1点と数え、S1とS2なら\frac{1}{5}、S2とS3なら\frac{0}{5}、S1とS3なら\frac{1}{5}としてみる。
Ins/Delはどう扱うか?そもそも、Ins/Delが明確に1回あった、と数えられるかは不明。
こういうときは、先人たちがどうやってみたかを真似るor単純な計算を導入する。
 
microRNAとtargetDNAの比較ができる、としよう。\{ m_i,\hspace{3}t_i\} の遺伝子ペアが
同じとは?1塩基ごとに比較して全く同じ。
違うとは?並べてみたらどこか違う。
として、\{m_k,\hspace{3}m_l\} \{t_k,\hspace{3}t_l\} を比較してそれぞれ\Delta m\Delta tがでたとすると、\Delta m\Delta tを統合してスカラーとするか?もしくは、\{ \Delta m,\hspace{3}\Delta t\} のベクトルとして扱うか?
 
数値が出たとして、種\{ s_1,\hspace{3}s_2,\hspace{3}\dots,\hspace{3}s_{27}\} の行列に収まる。
これは距離行列となり、系統樹がかける。
 
22の遺伝子ペアについて結果が出せたとする。統合をどのようにするか?
 
統合して何か結果が出たとして、当初の目的の標本属性による違いを考えてみる。
\{ s_1,\hspace{3}s_2,\hspace{3}\dots,\hspace{3}s_{27}\} には属ー種ー亜種の分類に従って系統樹が既にできているから、距離行列をもとに数値を拾う。
これから検定をしてみる。
 
今日の保留問題として、行いたい検定がないとき、有意差をどう出すか。
何回も検定をするとき(多重検定)のときのp値をどうするか。