理論科学のオートメーション化

2015年11月09日（月）

投稿者: 木立尚孝

　テーマが「お気に入り」ということで、ここ数年のお気に入りの研究テーマについて書きます。

　計測技術と情報通信技術の進歩により社会のあらゆる分野で爆発的なデータの蓄積が起こっています。それに伴い、蓄積されたビッグデータを有効に活用し、未来の予測やビジネスの効率化につなげるデータサイエンスという分野が重要となっています。データサイエンティストは計算機科学や統計学、機械学習などの手法を駆使して、データに潜むルールを見出し、モデルに基づき予測を行います。

　このデータ爆発の時代に理論科学分野にも新しい流れが起きています。従来の理論科学では、仮説駆動型の方法論に主に基づいて研究が行われてきました。仮説駆動型研究においては、研究者は既知の事実や仮説に基づき（多くの場合）微分方程式を構築し、その微分方程式を解いて得られた帰結が実験結果と整合することを示します。このような研究が成功するかどうかは、興味ある現象から本質を失わずに枝葉末節を取り除き、解ける微分方程式に問題を落とし込めるかどうかにかかっています。従って、頼るべき仮説や既知事実がなく、微分方程式が立てられない場合、仮説駆動型研究は行き詰まってしまいます。

　このような仮説駆動型研究の欠点を補うものとして、データ駆動型研究が近年注目を集めています。データサイエンスを科学研究に応用したのがデータ駆動型研究ですが、この方法では、研究者は予めモデルを固定せずに、観測データから現象を説明しうるモデルを計算機で自動推定します。このため、モデルを立てるのが難しい現象も取り扱うことができ、研究者が想像もしなかったような新原理の発見が可能となります。大規模生命データを計算機を用いて解析するバイオインフォマティクスにおいてもデータ駆動型研究は日常的に行われています。

　現時点で、生命科学においてデータ駆動型研究を行う際の問題は、測定可能な生命データのタイプの偏りが大きく、生命現象のごく一部しか見ていない点です。例えば、遺伝子発現や転写因子結合領域のデータはあっても遺伝子間相互作用やシグナル経路は直接測れません。また、分子スケールのデータは大量にあるのに比べ、細胞・組織・個体などマクロな表現型に関するデータは少なく、データ駆動型研究の有効性に強い制約となっています。これらの問題により、現在のバイオインフォマティクス研究は、発現変動遺伝子をリストしてGOターム解析をする、といった、浅いレベルの解析に留まっています。

　そこで私の研究室では、従来より格段に深いレベルの生命現象解析を可能にする計算手法の開発を行っています。この手法は、データ駆動型研究と仮説駆動型研究を融合したようなもので、大量データから現象を記述する微分方程式を自動的に導出します。一旦微分方程式が導出されれば、数百年に及ぶ仮説駆動型研究で培われた様々な微分方程式のテクニックを利用して、現象の本質を理解したり未来への予測を行うことができます（既存のデータ駆動型研究でのモデル推定法と、この微分方程式の推定法とはどこが違うのかは技術的な点なので省きます）。データが少ない時代にも行われてきた理論生命科学のやり方（仮説駆動型研究）をデータ駆動型研究に取り込むことで、生命データ解析に特有の困難を解決しようと考えています。

　この手法は、ある意味で、仮説駆動型の研究を行ってきた理論研究者の仕事を計算機で代替するようなもので、理論科学のオートメーション化ともいえるものです。DNAシーケンサーや双腕ロボットなど実験研究の自動化が加速していますが、理論研究も同様に自動化を進めれば、研究者はより高次元の問題に取り組めるようになるだろう、と考えています。

カテゴリ: 私のお気に入り

木立尚孝

東京大学新領域創成科学研究科准教授
▶ プロフィールはこちら

このカテゴリをもっと見る « パンダ模様のマウスって。。

トップへ戻る