RefSeqのNM ID

RefSeqのmRNA IDであるNM_nnnnnがどの遺伝子に対応しているのかいまいちわからなかったのでゴリ押しした。
NCBIからデータベースをnucleotideにして、

"Mus musculus"[Organism] AND NM_000000[PACC] : NM_999999[PACC]

と検索すれば、マウスのNM IDのものをとりあえずがっさり取ってくる。こんな感じ
これを右上の Send to > file > create にすれば、nuccore_result.txtというファイルが手に入る。

1. Mus musculus ubiquitin-like modifier activating enzyme 1 (Uba1), transcript variant 2, mRNA
4,073 bp linear mRNA 
NM_001136085.2 GI:444299615

2. Mus musculus ubiquitin-like modifier activating enzyme 1 (Uba1), transcript variant 1, mRNA
4,068 bp linear mRNA 
NM_009457.4 GI:444189293

3. Mus musculus DEAH (Asp-Glu-Ala-His) box polypeptide 30 (Dhx30), nuclear gene encoding mitochondrial protein, transcript variant 2, mRNA
3,904 bp linear mRNA 
NM_133347.2 GI:358248325

4. Mus musculus DEAH (Asp-Glu-Ala-His) box polypeptide 30 (Dhx30), nuclear gene encoding mitochondrial protein, transcript variant 1, mRNA
4,228 bp linear mRNA 
NM_001252682.1 GI:358248314

5. Mus musculus RIKEN cDNA 1700021K19 gene (1700021K19Rik), transcript variant 2, mRNA
5,316 bp linear mRNA 
NM_172615.4 GI:317171921

6. Mus musculus RIKEN cDNA D830031N03 gene (D830031N03Rik), mRNA
8,311 bp linear mRNA 
NM_001167918.1 GI:269315857

で、これをPythonでゴリ押しする。

import re

genesymbol = re.compile("\(.*?\)")
NM = re.compile("NM_[\d\.]*")

wd = "" # nuccore_result.txt の置いてあるディレクトリ
f = open(wd + "nuccore_result.txt", "rU")
w0 = open(wd + "result.txt", "w")
f.readline()
for i in range(30000):
	gene = genesymbol.findall(f.readline().rstrip())[-1][1:-1]
	f.readline()
	NMID = NM.findall(f.readline().rstrip())
	f.readline()
	
	w0.write("\t".join([gene] + NMID) + "\n")

w0.close()