2018年12月30日(日)

流行と不易

投稿者:

公募班の福永です。お題が「5年前と変わったこと、変わらないこと」という事ですが、5年前は学生でした的な個人の話は既にしたので、研究寄りの話をします。

この5年で起きた技術的な革新は生物学・情報学共に大きなもので、(私があえて挙げるのもおこがましいですが)生物学で言えばゲノム編集技術やナノポアシーケンス、バイオイメージング技術などがあり、情報学で言えばやはり深層学習(Deep Learning)が筆頭に挙げられると思います。バイオインフォマティクスは、その分野的特徴から技術革新の影響をもろに受けやすく、今年のバイオインフォマティクス分野のTop国際会議であるISMBでは、一細胞シーケンスデータの解析手法の開発や深層学習の応用研究が目立ちました。生物であれ情報であれ新しい技術が出たならば、それを解析・応用していくことが求められるというのは、やる事がなくならないという意味では良さそうですが忙しい分野であるとも言えそうです。なお、情報科学の分野では論文は雑誌ではなく国際会議への投稿で評価されるもので、この会議での発表は論文化されます。ISMBについては例年東京で輪読会を開いておりますので、ご興味のある方はよろしければ来年ご参加ください。(今年は中川先生にご来場いただきました! https://atnd.org/events/98383)

忙しい分野だということは、取りこぼされてしまっている研究テーマも多くあるということかもしれません。特にNGSの生リード配列ではなくゲノムデータのみを入力としたソフトウェア開発研究はおよそ下火に思えます。たとえばゲノム配列のアライメントデータからsmall ncRNAを発見するという研究は、2010年のRNAz 2.0の後は研究がほぼ行われていない状況です。これはsmall RNA-seqをやってマッピングした方が精度良く検出出来るからという事がありますが、組織特異的な発現をするRNAや低発現なRNAも見たいのでDe novoで予測したいとのご意見を耳にしますので、今でも価値のあるソフトウェアだと思います。

一度流行らなくなったのにもう一度重要性が増してきている研究テーマとして、ゲノム配列からの散在リピート配列の検出があるでしょうか。2005年より前はゲノム配列のアノテーションのためにソフトウェアが開発されていましたが、NGSの登場後は「配列長が短いためリピートがあると上手くアセンブル出来ないので、NGS配列データからリピートを検出してマスクしアセンブルを成功させる」ためのリピート検出ソフトウェアに研究の主流がシフトしました。一方で近年では、PacBioやNanoporeによるロングリードでゲノムをアセンブルする事が主流になってきており、再び「ゲノム配列からの散在リピート配列の検出」が重要になってきているのではないかと考えています。ということで、RNA-RNA相互作用にも関係があるので最近学生さんと研究を始めました。

確かにゲノムデータだけから何かを予測するというような問題は、当然10年以上前からあったような研究なので、古い印象を与えることは否めません。しかしゲノム配列が比較的安定したデータである事から、ゲノムだけに依拠したソフトウェアは汎用性が高く問題の賞味期限が切れにくいという事があり、逆に5年後も使われている可能性が高いかもしれません。(要検証) たとえば上で挙げたゲノム配列からの散在リピート配列の検出は、2005年に開発されたRepeatScoutが未だ盛んに使われています。今をときめく深層学習も、Hintonらが不遇の時代も続けていたから華開いたというものであり、2006年に登場した当時には「時代遅れの研究者がたまたま放ったラッキーヒット」みたいな扱いを受けていたということなので、今後もコツコツ続けていきたいと思っています。

福永 津嵩

早稲田大学 理工学術院 学振特別研究員(PD)
▶ プロフィールはこちら

このカテゴリをもっと見る « ツンデレorchid イノシシ出没 »

ブログアーカイブ

ログイン

サイト内検索