2017年08月31日(木)

Python系解析ツール(HT-seq/subread)のらくらくインストール

投稿者:


ベンチ屋がやるなんちゃってバイオインフォにとって欠かせないのは手軽に解析環境をインストールすることのできるMacOSとhomebrewなわけですが、homebrewでカバーできないツールも結構あります。ENCODEのデータがリリースされたのをきっかけにどりゃどりゃGomafuちゃんでも見てみようかと思った時に、一つあたり計算に数時間かかるCufflinksに多数のデータを突っ込むのは、ラボのMacProレベルでは小錦を自転車に乗せるようなものでとても無理。もっと手軽なカウントツールとしてHT-seqやらSubreadのfeatureCountやらあるわけですが、brew install HTseqやbrew install subreadではまだサポートされてないのでインストールできません。

頼みの綱のbiopapyrusさんのHPを頼りにインストールしようとしても、まずしょっぱなの

pip install numpy --user

から、

-bash: pip: command not found

という非常なメッセージ。

これだからベンチ屋は、、、と、世の中のバイオインフォの専門家の悲嘆が聞こえてくるような気もしますが、いろいろなツールをマニュアル片手に入れようとしても、依存関係のあるパッケージのどれ一つが抜けてもエラーが出ますし、前のiMacではうまくいったのに今のMacProではうまくいかないとか落とし穴満載です(原因はえーと、、、察してください)。どこかに便利なやり方はないかと思い悩んでいたら、python系のツールはAnacondaを使えば一発ですよ、とラボの米田さん。持つべきものは良き同僚です。とりあえずAnacondaのインストールページに飛びます。最新版では使えないツールもあるということで、安定のPython2.7版をダウンロード。見慣れたMacOSのインストール画面に従って、Anacondaをインストール。Macintosh HDの直下においてしまって良いようです。Minicondaという簡易版もあるようですが、信じるものは救われる。Anacondaにしておく方が良いようです。プロトコールは省略しない。伝説だと思ってもFISHでアセチル化のステップを省かないようなものですね。(追記:biocondaとかminicondaとかだとPATHの設定等があってトーシロにはちょっとだけハードルが高くなるみたいです)

で、ターミナルを立ち上げて、Anacondaがインストールされているかを確認

conda list

ごちゃごちゃ管理しているパッケージの一覧が出て来ればオーケーです。もしも無反応ならパスを通します。

export PATH=~/anaconda/bin:"$PATH"

そこで、ツールをインストール

conda install -c bioconda htseq
conda install  -c bioconda subread

おーっ!!画面が流れ始めてなんかやってます。homebrewを彷彿させる、何もしてないのに仕事してる感が味わえるこの感覚。さて、実際に使えるかコマンドを打ってみます。試しにNOL12のeCLIPをカウントしてみます。

featureCounts -T 4 -O -a refseq.gtf -o result.txt HepG2_NOL12_1_ENCFF722JFH.bam

プログラムが走り始めて最初に出てくるのがこの表示。

いにしえのマイコンBASICマガジンのプログラムに出てきそうなSUBREADの文字がたまりませんね。じゃあ計算してる間コーヒーでも飲んでくるかと腰を浮かせたところ、

|| Running time : 0.06 minutes ||

早っ!!数秒で終了!超高速参勤交代顔負けの超高速カウンターです。

ともあれ、python系のツールもanacondaに任せればhomebrew感覚ですぐに使えるというのは便利!いつまでたっても自力でインストールできないというのはそれはそれで問題なのかもしれませんが、ベンチ屋にとっての大きな味方です。ちなみにsubreadはRでも使えるみたいで、この場合、Rのコマンドラインで

source("https://bioconductor.org/biocLite.R")
biocLite(pkgs="Rsubread")
library ("Rsubread")

とすればもうこれでオーケー。Rが全て面倒を見て関連ツールをインストールしてくれます。何て簡単なんだ。結果が出てきたらそのままedgeRとかでの解析に入れるので、こっちの方が楽かもしれません。先ほどのコマンドラインと同じ命令をするとしたら

result=featureCounts(nthreads=4, allowMultiOverlap=TRUE, isGTFAnnotationFile=TRUE, annot.ext="refseq.gtf", files="HepG2_NOL12_1_ENCFF722JFH.bam")

ですね。この辺りのオプションのつけ方は慣れないと若干戸惑いますが、Subread/Rsubreadはマニュアルもとっても親切でわかりやすく、wet-friendlyなツールですね。

追記:

conda installに関してはボノさんのブログImamachi-nさんのブログでも詳しく触れられていました。専門家の解説、参考になります!

中川 真一

北海道大学 薬学研究院 教授
▶ プロフィールはこちら

ブログアーカイブ

ログイン

サイト内検索