対象データの把握と知りたいこと - 驚異のアニヲタ社会復帰の予備

DNA配列の違いを数値化したい。
27の標本：属ー種ー亜種と分類されている。
44の遺伝子：microRNAとtargetDNAのペア。実際は22の遺伝子ペア。
配列：500〜700塩基。
　
知りたいのは
Q1：標本の属性の違いが遠近に関係あるか?ないか?
Q2：遺伝子配列が種の間で保存されている程度を数値化。
　
遺伝子ペア配列の違いの程度をどう表すか?
S1:ATTGC
S2:ATTCC
S3:ATTCC
とすると、変異塩基を1点と数え、S1とS2なら $\frac{1}{5}$ 、S2とS3なら $\frac{0}{5}$ 、S1とS3なら $\frac{1}{5}$ としてみる。
Ins/Delはどう扱うか?そもそも、Ins/Delが明確に1回あった、と数えられるかは不明。
こういうときは、先人たちがどうやってみたかを真似るor単純な計算を導入する。
　
microRNAとtargetDNAの比較ができる、としよう。 $\{ m_i,\hspace{3}t_i\}$ の遺伝子ペアが
同じとは?1塩基ごとに比較して全く同じ。
違うとは?並べてみたらどこか違う。
として、 $\{m_k,\hspace{3}m_l\}$ 、 $\{t_k,\hspace{3}t_l\}$ を比較してそれぞれ $\Delta m$ 、 $\Delta t$ がでたとすると、 $\Delta m$ 、 $\Delta t$ を統合してスカラーとするか?もしくは、 $\{ \Delta m,\hspace{3}\Delta t\}$ のベクトルとして扱うか?
　
数値が出たとして、種 $\{ s_1,\hspace{3}s_2,\hspace{3}\dots,\hspace{3}s_{27}\}$ の行列に収まる。
これは距離行列となり、系統樹がかける。
　
22の遺伝子ペアについて結果が出せたとする。統合をどのようにするか?
　
統合して何か結果が出たとして、当初の目的の標本属性による違いを考えてみる。
$\{ s_1,\hspace{3}s_2,\hspace{3}\dots,\hspace{3}s_{27}\}$ には属ー種ー亜種の分類に従って系統樹が既にできているから、距離行列をもとに数値を拾う。
これから検定をしてみる。
　
今日の保留問題として、行いたい検定がないとき、有意差をどう出すか。
何回も検定をするとき(多重検定)のときのp値をどうするか。