無料だし

2016年06月20日（月）

投稿者: 河岡慎平

僕が初めてNGSデータを得たのは2008年だったと記憶しています。8年前。Solexaという名前のシーケンサで、リード長は36塩基でした。当時はまだNGSは物珍しく、マイクロアレイの方が盛んに行われていたように思います。扱っていたsmall RNAの長さが28塩基くらいだったので、Solexaがぴったりだったのです。

時は流れて、NGSはすっかり「当たり前に使われる技術」となりつつあります。ゲノムプロジェクトやENCODEなどのビッグプロジェクトでなくとも、一つの論文あたり数十のシーケンスデータが登録されることは珍しくなく、日々大量のデータが蓄積しています。

研究者たちの知の蓄積とも言えるこれらのデータを再解析することは、特にプロジェクトの初期に、その方向性を定めるのにとても便利です。そのデータを取った研究者は、別の目的でそのデータを得ているのであって、今まさに検討しようとしている仮説のことは(多分)知らないからです。そういうデータは、なんというかこう、より客観的であるような気がするのです。2つ以上のデータセット(曇りなきまなこ)が手に入れば、その共通項を抽出することでより確からしいデータが得られますし、最初から再現性を担保できるかもしれません。Gene Expression Omnibus(GEO)を見ると、論文として公開されているもの以外に、論文公開に先立って公開されたデータを見つけることもでき、そのデータを使った論文の内容を先取りできることもあります。人によったら、論文を読むよりもデータを再解析したほうが楽ちんだぜ、という場合もあるかもしれません。

こういう解析によって、思いもよらない繋がりを発見できることもあります。フェイスブックで知り合いをたどっていったら、全然関係ないと思っていた人同士に繋がりがある、なんてことはよくあると思います。

注意しないといけないこともあります。Data representationの妙というか微妙というか、論文の著者らの生データを使って再解析をしても、著者らの論文のようなデータが得られない(どう見ても様子が違う)ことがあるし、spleenって書いてあるのにこれどう見てもthymusだろ、みたいなこともあります。最近、かっこよくしようかっこよくしよう、それっぽくそれっぽくしよう、として、どんどんわかりにくくなっているような。だから、論文に「書いてあること」を当てにすると、後で痛い目にあうかもしれません。そういう意味で、より生に近いところから自分の手で解析するのが良いです。注意深くデータを見比べ、可能ならば、「この人たちのデータは綺麗」みたいな知識がたまっていくと、なおよしです。これはデータベースですが、Gene expression commonsとか、好きです。どうでもいいですが、未だに、「お前のデータを解析したが…」というメールが来ると、ちょっとびびります。

個人的には、近年どんどん進んでいる大量配列解析の先に、得られたデータ、要素同士の相関の中の「一体どれが大事なのか」ということを検証するための、「フォーカスした解析」があるのではないかと予想しています(当たり前?)。

全体(らしきもの)を知る、その上で、その急所を知る。大量に蓄積したデータの中から信頼出来るデータを選び出し、地道に、自らの手による再解析を行い、仮説構築、仮説検証に役立てる。特に、絶対にありえなさそうな道を知っておく。地味ながらも僕にとって非常に重要な小技です(みんなやってるかもしれないけど…)。

カテゴリ: 私の技・カイゼン術