2016年09月12日(月)

加速する情報社会

投稿者:

 どの分野でもそうかもしれないが、バイオインフォマティクスは研究の本質と関係ないところに時間を食われることが多い。昔、バイオインフォマティクス研究者の研究時間の7割は、ファイルのフォーマット変換に費やされていると揶揄(自虐?)されていた。実は、これは手入力ファイルを機械で読み取ることが多かった昔だけの話ではなく、現在でもかなりの時間が単なるファイル形式の変換に費やされている。

 次世代シーケンサー周りだと、Fasta形式、Fastq形式, SAM形式、BAM形式、VCF形式、BED形式、GTF形式などの各ファイル形式を延々と行ったり来たりすることが多いだろう。

 これらの形式は非常によく使われているが、それほど先まで見通してデザインされたものではなく、歴史的経緯による不可解さや不備を内包している。そのためフォーマットを理解するのも正しく読み書きするプログラムを書くのも結構な労力が必要となる。

 幸いにして現在はGithubサイトなどを利用したソフトウェアの公開手法が進んでおり、上記のものに関しては、Samtools、Bedtoolsなど効率的な相互変換ツールが簡単にダウンロードできる。従ってこれらの信頼できるプログラムを正しく使えれば、自分で変換プログラムを書きうっかり入り込んだバグに苦しむ時間を節約できる。

 ところがこの場合、人が書いたソフトウェアの使い方を学ぶために説明書きを読まねばならず、これに意外と時間がかかる。これらのプログラムはソフトウェア会社が作成したものではないため、プログラムの動作がはっきり書かれていないことも多い。小さなデータを作って、動作を確かめたり、ソースコードを読んで内容を理解するという手もあるが、そのような面倒なことをする心の余裕がないときは不十分な説明書きの意味をとるのに四苦八苦してしまう。

 よく出来たことに、現在では、StackOverflow, Biostarsなど、プログラミングに関する質問サイトが充実しており、グーグルでキーワード検索するとかなりマニアックな疑問であっても質問する人がいて、それに答えを返してくれる親切な人がいる。私の場合現時点では、この部分に時間を使っていることが多く、細々とした関数やツールの機能や使い方を調べるのに、ひたすらグーグル検索を繰り返すという日常を送っている(気がする)。

 私は理論物理出身だが、理論物理は少数の基礎理論があり、その知識さえあれば基本的にはそこから様々な結論が導き出されるということで、研究するのに知識量はそれほど必要なかったと感じている。バイオインフォマティクスの世界に入ってプログラミングをするようになるとプログラミング言語の機能や関数の使い方を理解するのに一々ドキュメントを読まねばならず、情報科学の分野はこんなにも説明書きの文書を読むものなのかと感じた。

 現在ではその頃と比べても比較にならない位、延々とネットの文書を読んでいる。当然のことながら理論物理をやっていた頃より、物事をじっくり考えることは少なくなったが、どうせそれは皆同じだし、研究するときの脳の使い方が大学院の頃と比べ劇的に変わった現状を興味深く感じている。

木立 尚孝

東京大学 新領域創成科学研究科 准教授
▶ プロフィールはこちら

ブログアーカイブ

ログイン

サイト内検索