技術紹介

技術紹介

 

ENCODEのshRNA-RNAseqはこりゃ便利だということでここのところENCODEコンソーシアムから頼まれたわけでもないのにウルトラ超絶宣伝していますが、このデータをよくよく見てみると、実験群ごとにだいぶ様子が違うのに気付きます。例えば、下の図はとあるふたつのコントロール実験(control shRNAでノックダウンした実験)におけるACTBのリードの張り付き方を見たものですが、、、

リードの張り付き方のパターンがえらく違います。

 恥ずかしながら、僕自身、ウェットの研究者がピンセットとピペットマンだけ握っていれば良い時代はとうの昔に終わったことに気づいたのは、実はつい最近。今更データサイエンティストを目指すのもなんだしなあ、、、と半ば諦めてたところはあるのですが、ちょろっと触ってみるとこれが意外と楽しいんですね。HelloとShitとGreatだけの英会話みたいなレベルでも、意思疎通できるというのはそれだけで喜びを与えてくれるものです。それに加えてI love youだけ覚えれば人生の90%のミュニケーションは事足ります。というわけで、I love you R!

もう10年ほど前になりますが、Gomafuの核内局在因子やXistの染色体極在化因子を探そうとして僕らがとったアプローチは、RNA結合蛋白質に対してデザインしたカスタムsiRNAライブラリーを用いて片っ端からノックダウンしていって、その効果を調べて真打を探す、というものでした。HGWさんのたぐいまれなる強運もあり、このアプローチは大成功を収めたわけですが、ENCODEのshRNA-RNAseqのデータが使える今日だったら、実験を始める前からデータは手許にある!ということで、かなりの部分をショートカットすることができるわけです。というわけで、R初心者によるR講座第ウン段。今回は、自分の興味のある遺伝子の転写産物が、特定のRNA結合蛋白質をノックダウンした時にどのような変化をするのか、ということを可視化する方法を紹介します。まあ、そのうちUCSC Genome Browserでもすぐに見れるようになるんでしょうが、ちょっとだけ先を行こうということで、、、

 


ベンチ屋がやるなんちゃってバイオインフォにとって欠かせないのは手軽に解析環境をインストールすることのできるMacOSとhomebrewなわけですが、homebrewでカバーできないツールも結構あります。ENCODEのデータがリリースされたのをきっかけにどりゃどりゃGomafuちゃんでも見てみようかと思った時に、一つあたり計算に数時間かかるCufflinksに多数のデータを突っ込むのは、ラボのMacProレベルでは小錦を自転車に乗せるようなものでとても無理。もっと手軽なカウントツールとしてHT-seqやらSubreadのfeatureCountやらあるわけですが、brew install HTseqやbrew install subreadではまだサポートされてないのでインストールできません。

タイトルの通りですが、Gene YeoさんやBrenton Graveleyさんが中心となって進めているENCODEのRNA結合蛋白質関連のプロジェクト論文がbioRxivにアップされました。

とにかくこれだけのデータが公共データベースで誰でも使えるようになっているというのがすごい!なんせ、200近いRNA結合蛋白質についてshRNAを用いたノックダウンのRNAseqのデータが手に入り、しかも半分ぐらいのものに関してはeCLIPのデータがセットになってるんですよ。これって一つのRNA結合蛋白質についてやるだけでも、普通に一つのラボが何年もかけてやる実験じゃないですか。多くのものについては免疫染色のデータもついてます。本当に一昔前なら信じられない状態です。今風に言うなら、やばい、やばい、やばい状態です。細胞はK562とHepG2と限られていますし、必ずしも自分の興味あるRNA結合蛋白質が全て含まれているわけではありませんが、特定のRNA結合蛋白質をノックダウンして発現量が変わるのかな、スプライシングのパターンが変わるのかな、転写開始位置やpoly-A付加位置が変わるのかな。これら全ての疑問は、ベンチで実験しなくても、データを解析するだけで答えが出る!!このデータを元にした再解析をするだけで、立派な論文が書けそうです。やってみようかな。いや、是非やってみましょうよ!

というわけで、eCLIPとshRNA-RNAseqのbamファイルを遺伝子の名前と細胞の名前つきでダウンロートできる簡単すぎる恥さらしでもちょっと役にたつかもしれないシェルスクリプト用意しました。ENCODEのサイトにも一括ダウンロードできるファイルがあるのですが、前記事でも触れた通り、Accession#しかファイル名がないので、直感的に使いにくいんですね。とりあえずダウンロードしておけば、好きな時にいくらでもデータにアクセスできます。そのうちUCSC Genome Browserにリンクがつくのでしょうが、それまで待てない!という感じですね。

しかし全部ダウンロードすると10TBぐらいにはなりそう。HDDをまず買いに行かなければ、、、

札幌はガトーキングダムで開かれた内藤カンファレンス。自宅から車で40分ほどにもかかわらず3泊4日もすることになり家族が悲しむかと思いきやむしろ喜んでいるようだったのでちょっぴり悲しくなりつつも、今回のテーマはずばり、"Noncoding RNA: Biology, Chemistry, & Diseases"。GordonやKeystoneに引けを取らない豪華な海外ゲスト。超ウルトラスーパーデラックスエキサイティングでグレートでプロジーヂャスなミーティングは非常に熱気に満ちていて、興味のある話はいくら聞いていても飽きないということを本当に実感した4日間でした。

2017年06月16日(金)

DIYスクリプティング

投稿者:

東大富田研の山下です。最近、結晶化実験に対してRを用いたラボハックを試み、ささやかな達成感を得られたので紹介させていただきます。

私たちの研究室の主要な実験手法のひとつはX線結晶構造解析です。なにはなくとも生体高分子(タンパクなど)の結晶が必要で、結晶ができるかどうかが主要課題です。結晶は精製したサンプルを沈殿剤と混ぜて溶解度を下げ、析出させることで作成します。タンパクは別にきれいだから結晶になるわけではなく、不定形に沈殿するよりも周期的に並んだ状態(=結晶)のほうが自由エネルギー的に有利になりやすい、という現実的な理屈がそこにはあります。とはいえ分子のフレキシビリティや安定性などとの兼ね合いもあるので単純に成否を判断することはできません。むしろ結晶化予測に関してはいまだに人知はおろか計算機でも及ばず、数多くの沈殿剤条件(pH, 沈殿剤や添加する塩の種類や濃度)を試して良いものを探るというスクリーニング実験が必須となっています。

2017年02月07日(火)

Rの魔法(2)〜PPAPから作図まで

投稿者:

ピペットマンとピンセットばかり握っていたベンチ屋がMoistureを目指す時、越えなければいけない最初の壁がTerminalのコマンドライン、次の壁がRでしょうか。最近、海の向こうでは壁を作るのがはやってるみたいですが、壁はピンクフロイドだけにしておいて、目指せMoiture、サルでもできるRの続きです。

ここ数年で、コテコテのベンチ屋でもある程度の次世代シークエンサーのデータ解析ができる環境がどんどん整ってきました。なんのセットアップも必要なくNCBIのBLAST感覚で手軽に利用できるのがクラウドベースの解析環境で、老舗のGalaxyに加え、最近はセルイノベーションプログラムで整備された遺伝研のMaserなどがきめ細やかなサービスを提供してくれています。さすが遺伝研。また、とっても素人friendlyな「次世代シークエンサーDRY解析教本」などのスグレモノ書籍も出版され、my Macに各種ツールをインストールして自前でなんちゃってNGS解析しているwetな学生さん(性格がwetなわけではない)も数多くおられると思います。そう。もう、仕事をDryとWetなんて分ける時代ではない。今や時代は、理研CDBの工樂さんがおっしゃるところの、"Moisture"で行こう!です。(2/8追記:ったくこれだから素人は、、、というミスがありましたので訂正入れました

「ネット」=「妖しいもの」というのが一昔前は定番だったと思いますが、今ではすっかり市民権を得て、新聞やテレビよりも信頼できる、なんて言っている人もいるようです。その真偽はともかくとして、ネット上のSNSは情報収集という観点からはなかなかバカにならないものがありまして、先日の当ブログのエントリーにも、早速rnacintosh LC475さんからツッコミがありました。

1 / 4

ブログアーカイブ

ログイン

サイト内検索