東京大学 新領域創成科学研究科 准教授
▶ プロフィールはこちら
この新学術の公募研究に採用されたことをきっかけに幾つかの共同研究のお誘いを受け、色々と貴重な経験をさせていただいた。NGS解析を担当するものが多かったが、その中でもPARISデータの解析は興味深かった。PARISは、RNAのどの領域とどの領域が水素結合しステム形成するかを、ハイスループットに計測する。データを見ると、互いに矛盾するステム構造が沢山検出されることから、同じRNA分子であっても、細胞中でとる二次構造は様々であることがよくわかる。PARISデータは、他の多くのNGSデータと比べて、遺伝子レベルよりも情報が細かく一分子一分子の物理的存在が感じられるデータとなっている。
どの分野でもそうかもしれないが、バイオインフォマティクスは研究の本質と関係ないところに時間を食われることが多い。昔、バイオインフォマティクス研究者の研究時間の7割は、ファイルのフォーマット変換に費やされていると揶揄(自虐?)されていた。実は、これは手入力ファイルを機械で読み取ることが多かった昔だけの話ではなく、現在でもかなりの時間が単なるファイル形式の変換に費やされている。
次世代シーケンサー周りだと、Fasta形式、Fastq形式, SAM形式、BAM形式、VCF形式、BED形式、GTF形式などの各ファイル形式を延々と行ったり来たりすることが多いだろう。
テーマが「お気に入り」ということで、ここ数年のお気に入りの研究テーマについて書きます。
計測技術と情報通信技術の進歩により社会のあらゆる分野で爆発的なデータの蓄積が起こっています。それに伴い、蓄積されたビッグデータを有効に活用し、未来の予測やビジネスの効率化につなげるデータサイエンスという分野が重要となっています。データサイエンティストは計算機科学や統計学、機械学習などの手法を駆使して、データに潜むルールを見出し、モデルに基づき予測を行います。
公募班として参加する木立尚孝と申します。本プロジェクトにおいては、RNA結合タンパク質結合部位周辺の二次構造モチーフのバイオインフォマティクス解析を行うとともに、解析結果のデータベースの開発を行うことにしています。
生体分子のモデルの中でも、RNA二次構造の計算モデルは特に上手くいくモデルです。このモデルでは、生化学者Turnerらにより計測された自由エネルギーパラメータに基づき、天文学的な数の二次構造候補を網羅的に探索・評価することができます。また、統計力学のボルツマン分布に基づいて、配列の各領域でのステムの組みやすさなどを完全に計算することができます。このような計算ができるのは、情報科学において人間の言語を理解するために発展した、文脈自由文法理論のおかげです。この計算モデルを用いるとRNAの塩基対の六−七割を正しく当てることができます。