2017年08月26日(土)

細胞と遺伝子の名前つきでENCODEのeCLIPとshRNA_RNAseqのbamデータを一括ダウンロード

投稿者:

タイトルの通りですが、Gene YeoさんやBrenton Graveleyさんが中心となって進めているENCODEのRNA結合蛋白質関連のプロジェクト論文がbioRxivにアップされました。

とにかくこれだけのデータが公共データベースで誰でも使えるようになっているというのがすごい!なんせ、200近いRNA結合蛋白質についてshRNAを用いたノックダウンのRNAseqのデータが手に入り、しかも半分ぐらいのものに関してはeCLIPのデータがセットになってるんですよ。これって一つのRNA結合蛋白質についてやるだけでも、普通に一つのラボが何年もかけてやる実験じゃないですか。多くのものについては免疫染色のデータもついてます。本当に一昔前なら信じられない状態です。今風に言うなら、やばい、やばい、やばい状態です。細胞はK562とHepG2と限られていますし、必ずしも自分の興味あるRNA結合蛋白質が全て含まれているわけではありませんが、特定のRNA結合蛋白質をノックダウンして発現量が変わるのかな、スプライシングのパターンが変わるのかな、転写開始位置やpoly-A付加位置が変わるのかな。これら全ての疑問は、ベンチで実験しなくても、データを解析するだけで答えが出る!!このデータを元にした再解析をするだけで、立派な論文が書けそうです。やってみようかな。いや、是非やってみましょうよ!

というわけで、eCLIPとshRNA-RNAseqのbamファイルを遺伝子の名前と細胞の名前つきでダウンロートできる簡単すぎる恥さらしでもちょっと役にたつかもしれないシェルスクリプト用意しました。ENCODEのサイトにも一括ダウンロードできるファイルがあるのですが、前記事でも触れた通り、Accession#しかファイル名がないので、直感的に使いにくいんですね。とりあえずダウンロードしておけば、好きな時にいくらでもデータにアクセスできます。そのうちUCSC Genome Browserにリンクがつくのでしょうが、それまで待てない!という感じですね。

しかし全部ダウンロードすると10TBぐらいにはなりそう。HDDをまず買いに行かなければ、、、

中川 真一

北海道大学 薬学研究院 教授
▶ プロフィールはこちら

ブログアーカイブ

ログイン

サイト内検索