データマイニングのコツ

遺伝・ゲノム医学コースの特別講座的なもの。
 
実験系のデータ量はどんどん増えている。
解析屋にデータを渡して何かやってもらう、あるいは、自分で何か解析する需要が大きくなっている。
実験データを管理するのは大切。だが、どうやればうまく管理できるか、どうまとめておけば解析屋にデータをわかりやすく伝えられるか。
 

私たちが実験して得たデータをエクセルに入れると、枠にこだわったり色をつけたりなんやかんやする。
人はデータが絵画的な方がわかりやすいが、解析屋がコンピュータに入力するときは邪魔。
コンピュータに入力するときはテキストファイルで。
テキストファイルはヒトと計算機の中間に位置する。
 
データには「値」(目に見える文字)と「構造」(目に見えない何か、読まない何か)がある。
「値」には「持ち主」がいる。
行と列。
番地が足りなくなったら→ディレクトリ。
 
テキストファイルが持てる「構造」はシンプルに。
改行、タブ、全角空白、半角空白、カンマ。
 
エクセルファイルとテキストファイルの相互変換(タブ区切り、カンマ区切り)。
 
どの行列番地に何の「値」が入っているか、をファイルを開かずに言えるか。
ファイルを開いて「値」をみたら、その「行列番地」を確認したら、その値の意味を説明できるか。
 
ヒトは同じことの繰り返し、やり直しが嫌い。
情報を総合的に判断することは得意。
 
コンピュータは同じことの繰り返し、やり直しは大好き。
情報を総合的に判断することは苦手。
 
コンピュータに処理させるとき
処理はフローに、そしてシンプルに。分岐を統合とか難しいことをやるとコンピュータがボン。
処理の間の取り決めを先に決め、中身は分担者に任せる。
後からなんか言われるとモチベーション減。