Arraystar Mouse LncRNA microarrayのGEOサーフィン

2016年12月15日（木）

投稿者: 中川真一

ちょっと前に谷上さんも書いておられましたが、今の時代、ちょいと調べてみようか、と思った実験の結果が公共データーベースにのっているというのはよくある話で、自分の実験を組み立てる前にデーターベースを当たってみて情報収集をするというのは、ムダを省く上でも必須の作業になりつつあります。個人的に暇な時にちょいちょい見ているのがNCBIのGEO Profilesで、my favorite geneの名前を入れるだけで、その遺伝子が変動しているような解析をずらりと並べてくれます。気になる解析があればNCBIのWebインターフェースからちょっとした解析するも良し。GEO datasetから生データーを落としてきて自前で解析するも良し。何せ便利な世の中になったものです。

ところが、ものによってはなかなか簡単にいかないものがあります。最近気になっているのが、Arraystar社が出しているlncRNAに特化したマイクロアレイ（GPL15691）を使ったデーターセットで、例えばGSE85439という解析では、肝臓と脂肪と筋肉での遺伝子発現を、通常状態、24時間絶食、絶食後4時間、高脂肪食摂取後48時間後、高脂肪食摂取後12週後、それぞれn=4とか5のスケールで解析しています。なんじゃこれ！一体いくらかかったんだろうとNIHのCaoさんの懐具合を心配してしまいますが、それこそ余計なお世話というもので、使えるものはありがたく使わせていただく、ということで、「Analyze with GEO2R」のリンクをポチッとな。しっかしこれが分かりにくい。押してもらおうという覇気が全く感じられないリンクなので、キャプチャ画面つけておきます。

出てきた画面でDefine groupsでグループを定義し、Top250のボタンを押すと、グループ間で発現変動する遺伝子をすぐに調べられます。こちらも押してもらおうという覇気が全く感じられないリンクなので、一応キャプチャ画面をつけときます。

で、結果がこちら。

おー！素晴らしい。選んだサンプル間で発現変動がある遺伝子が一目瞭然！

ん？一目瞭然？？

IDはあるけど遺伝子名がないではないか、、、

配列の情報があるのでそれをコピペしてBlatでもかければ遺伝子は判明するわけですが、自分の興味がある遺伝子、例えばGomafuとかGomafuとかGomafuとかの各サンプル間での発現変動を調べたい時だってあるわけです。そういう時は、Profile Graphというこれまたあまり覇気が感じられないタブの解析を選んでプローブIDを入れれば良いということはわかったのですが、そもそもそのプローブIDがわからない！

AffymetrixであればNetAffixやUCSC Geonme Browserから特定の遺伝子のprobe IDは簡単に引っ張ってこれますが、Arraystarは無料でデータを使おうとする輩にはIDは教えてあげないよん、という方針なのでしょうか、Google先生に聞いても、見つかりません。困った、困った、と思っていたところ、アレイの情報のページに行くと、プローブIDと配列の対応情報はすぐに見つかりました。

このアレイに関してはlncRNAに特化しているので、ncRNAblog+NEOを見られている方々も使う人もいるかもしれない、ということで、IDと配列だけのcsvファイル（Arraystar_probe_list.csv）を作って、このページの下のほうに置いておきました。（よくよく見るとこれも覇気の感じられないリンク、、、）
あとは、このファイルをエクセルで開いて、例えばC2のセルにGomafuの配列を入れて、

=IF(COUNTIF($C$2,"*"&B4&"*"),"Yes","No")

みたいにワイルドカード検索で部分一致したらYesというフラグを立てさせる式を書いて、下にががっとコピーしてて、後でソートすればオーケー。

なのですが、学生さんに「エクセルでなくRを使えRを！」と、自分で出来もしないことをいつも推奨している手前、Rのコンソールを使ってプローブIDの抽出もしてみました。

まずは、NCBIのNucleotideからGomafuの配列をとってきて、fasta形式のファイルをセーブします（Gomafu.fasta）。プローブリストのファイルと同じ作業ディレクトリに入れておきます。

次に、Rのコンソールを開いて、DNA配列操作関連の便利なツールのBiostringsをインストール

library(Biostrings)

後は、プローブとIDの対応表とGomafuの配列を読み込んで、部分一致したらその情報を出力させるだけ、

data<-read.csv("arraystar_probe_list.csv",stringsasfactors=f)

Gomafu<-readdnastringset("gomafu.fasta")

for (i in 1:59729) {

	seq<-data[i,2]

	if (grepl(seq,Gomafu)=="TRUE") {

		print(data[i,],row.names=FALSE)

	}

}

結果、

               ID                                                        Probe
 ASMM9PARTA044820 TTCATGCTTGTAGCTGCCTCTGTGTAAGATGCCATTTCAATATTAAAACCGACACACACT
               ID                                                        Probe
 ASMM9PARTA045976 GGTACAACACCAACCCACAAGGTTAGCAGCCCTTACCATTCCTCCACTTATGGGCCTTAT
               ID                                                        Probe
 ASMM9PARTA050182 TTACTTTGAGTTTTTCTGGGTCACACAAGAACCCACAATGCTCTAGGTGACAGAGGAGGA

あとはこのIDをProfile GraphのIDに入れてポチっとな、するだけで、、、
まあ、あまり本業とは関係ないのですが、こんなデータがパッと出てきます。やたー！

（ハア、ハア、、、、息切れ寸前です）

インフォのプロからするとバカにされそうですが、なんちゃってコマンドラインはベンチ屋の気分転換には最高！ということでお許しを。ミニプレップでDNAが取れた！みたいなレベルですが、小さな喜びが日々の糧になるのも確かでして。。。