技術紹介

技術紹介

 

5年余に渡り愛用してきた初代Macbook 12 inchなのですが、ある朝蓋を開けてみると液晶にヒビが。あっ、これやばいやつだと思っていたら見る見るうちにヒビが全面に広がり、お亡くなりになってしまいました。本体は生きているので外部モニタをつないで余生を送ってもらうことにしましたが、モバイル用のPCをなんとかしなくてはいけないということで、AppleシリコンM1のMacbook Airを新規購入しました。AppleのOSはいろんなツールが動かなくなるのが嫌なのでHigh Sierra後のアップデートを渋っていたのですが、新着のMBAに入っているBig Sur & Appleシリコンで何がどの程度動くのか、ちょっとマッピングまでやってみました。

ドメイン構造書いちゃいましたRスクリプトの反響が意外と大きかったので、調子に乗ってドメイン構造と、それぞれのアミノ酸残基が持つvalue-例えばPLAACによるプリオン様ドメインスコアとIUPred2による天然変性ドメインスコアを重ね合わせるスクリプトを書いてみました。一見面倒くさそうですが、一度Rのスクリプトを書いてしまえば、あとは最初に放り込むファイル名だけ変えれば簡単に書くことができます。需要がどれだけあるかわかりませんが、、、

ncRNAの研究をやっているとRNAだけではなく当然それらと相互作用するタンパク質の研究も深く関わってくるわけですが、プレゼンや論文でよく出てくるのがタンパク質のドメイン構造。これまでですとPfamで検索して出てきた構造をイメージキャプチャで切り取って貼り付けるというのが常套手段で、ちょっと手を加えるにしてもその図をイラレやパワポに取り込んでトレースしてそれらしく見せるという、手間がかかる割に元の情報を劣化させてるシーシュポスの神話ばりの意味なし作業をすることが多かったのですが、今の時代もうすこしすっきり綺麗にお手軽に書けないものだろうかと「タンパク質 ドメイン構造 検索」で検索したら、日頃よくお世話になっているKazumaxneoさんのmacでインフォマティックスシリーズの「タンパク質ドメインを検索する HMMER」というページがヒットして、読んでると意外となんとかなりそうだったのであれこれあれこれやってみたメモ書きをここに置いておきます。

ん?まだこのサイト残ってるようですので、メモ代わりに。

この時期、というか本来ならもうちょっと前の時期は、科研費の実績報告書書きシーズンで、毎回めんどくさいなあと思うのが、論文リストの打ち込み。Pubmedでサーチしてコピペして入れられたらどんなに楽か、といつも思うのですが、なかなかそういう対応にはなりそうにありません。でも、PubmedにはCSV形式でデータを出力する機能はあります。また、KAKENのシステムもCSVの取り込み機能はあります。でもそれがそのまま取り込めるわけではないので、結局ちまちまエクセルでコピペする羽目になります。そんなめんどくさいことやってられないので(オメーの論文なんてそんなに多くないんだからさっさとコピペした方が早いじゃないかというツッコミは置いといて)Rの正規表現の勉強がてら、簡単にフォーマットを変換できるRスクリプト作ってみました。

2019年02月23日(土)

tSNEであそんでみた

投稿者:

ここのところ発生生物学界隈では1細胞解析が大ブームです。「マウスの初期胚完全に理解した」みたいなサイトも整備されてきて、その勢いとどまるところを知らず。「細胞ばらしてクラス分けしただけで何が嬉しいの?」とか言ってる口の悪い人もいるようですが、「ス、スゲエ、、、」というのがやはり多くの人にとっての第一印象ではないかと思います。で、この一細胞解析で必ずと言って出てくるのがtSNE解析。膨大な遺伝子発現のデータから、この細胞は似ている、この細胞は似ていない、と、二次元プロット上に可視化することができる解析法になります。専門的には「次元下げ」というみたいですが、これ、eCLIPのデータで使ってみたらいろんな転写産物を細胞タイプみたいに分類できるかも?ということで、こちらの記事を参考に、ちょっと遊んでみました。

2018年09月12日(水)

iGONADはじめました

投稿者:

どこでもだれでも簡便に驚きの高効率で変異マウスが作れる東海大の大塚さん・鹿児島大の佐藤さん開発のiGONAD法。うちのラボに導入して一年半余りたち、ようやくコツらしきものが掴めてきました。講習会で教えていただいた神業の域にはまだまだ達していませんが、「素人」が手を出してどこにつまづいたのか、どうやって改善できたのかをまとめておきたいと思います。

公共データベースから大量にsraファイルをダウンロードしてきたり、自前のRNAseqのデータがわんさかある時、フォルダ内のファイル名を取得して一括処理する場面が往々にして出てきます。Rの場合はlist.filesという便利なコマンドがあるのでファイル名をベクターに入れてforループでまわせば良いですが、ターミナルの時はどうするんだろう?スペイン語をマスターするとイタリア語もある程度わかるらしいですが、Rをちょとかじったぐらいではターミナルのbashはとてもとても、、、とりあえずググってもなんだか?の記事ばかりで、まあ、このあたりは検索ワードのチョイスのセンスがないと路頭に迷いがちなのですが、なんとかとてもわかりやすい記事にたどりつきました。早速その内容を取り入れてサルマップ2018のまとめをアップデートして、ついでに少しでも同じような境遇で同じようにつまづいているベンチ屋と情報共有しようとTWしたら、これがすごい勢いでレスがついてなんだかすごく役に立ちそうなので、こちらにまとめておきます。

featureCountsがリード数のデータを作ってくれましたので、あとは複数のサンプルのカウントデータをまとめた表を作って、それをDEseq2などのツールに投げて標準化を行って発現の比較をすればとりあえずひと段落。リード数による標準化が絶対必要だというのは直感的に分かりやすいのですが、なぜDESeq2やedgeRを通さなければならないのか。

サルでもできるマッピングの次はサルでもできるリードカウントです。ん?サルでできるカウントならサルカン2018か、、、まあ、変えるのはめんどくさいので、サルマップシリーズで続けていくことにします。今回はRNAseqの解析なので、まずはリボゾームのリードを除いておきます。この辺りの流れも二階堂さんのページに詳しいです。

1 / 5

ブログアーカイブ

ログイン

サイト内検索