三原
はじめに
このところどんどん新しい高速なDNAオートシーケンサーが市場に出てきています。これらのシーケンサーから得られた配列断片は、ゲノム情報にマッピングするか、または断片をクラスタリングしながらアラインメントし、コンセンサスシーケンスを求めて遺伝子を同定するなどの作業を行なうと思います。ところで、このようにして求められた遺伝子のアノテーションを、皆様はどのように進めておられますか?
従来から遺伝子配列のアノテーションでは、BLASTなどの相同性検索を用いて配列の相同性の高い遺伝子配列を探し、それらの中にすでにアノテーションされているものを参考に考察するといった方法が取られていました。
しかし、この方法では、ある程度配列の相同性が高くなければヒットしないことや、アノテーションされている遺伝子がヒットしない場合は先に進むことができないという問題がありました。これらを解決する方法としてモチーフ情報を用いたクラスタリング法を開発しましたので、その方法について説明いたします(詳細は下記論文参照。)。
本手法のポイント
ここでのモチーフとは、生物種間や種内で進化的に保存されてきた短いアミノ酸配列のことを指しています。保存されたモチーフ同士は、生化学的な機能やタンパク質の構造に重要な情報を共有していることが想定されます。その為、モチーフ情報を利用したクラスタリングを行うことで、機能的に類似性の高い遺伝子をまとめることができるので、アノテーション作業の効率化につながります。
モチーフ情報利用したクラスタリング
以下にモチーフ情報を中心とした遺伝子のクラスタリング方法に関して説明します。 解析の流れは以下のとおりです。
- 解析対象となる遺伝子配列を集める。興味ある遺伝子を集めたり、関係する配列をBLAST検索で集めたりといった方法がとれます。Interproなどの情報を使って特定の機能ドメインが含まれているものを集めてみるのでも良いです。
- それらを対象にモチーフ検索を実行します。
- 検索でヒットしたモチーフを加えてスコアを与え、配列間の類似度を評価し、クラスタリングします。
- さらに、それらの結果を図1に示すように表示します。
同図の左側はデンドログラムです。右側の色のついたボックスはモチーフを表します。同じ色のボックスが、同じ種類のモチーフ配列を持つ部分をあわらしています。この手法では、持っているモチーフ情報が中心となってクラスタリングされるため、構造的に類似のものや機能的に類似である可能性が高いものを集めることができます。遺伝的に離れた生物種間で類似のものでも類似性を評価することが可能です。こういった処理にご興味のある方は、弊社までお問合せください。
図1 データ表示例
参考文献:
- M. Mihara, T. Itoh, T. Izawa (2010) SALAD database: a motif-based database of protein annotations for plant comparative genomics, Nucleic Acids Research, Database Issue D835-D842.
- Mihara, M., Itoh, T. and Izawa, T. (2008) In silico identification of short nucleotide sequences associated with gene expression of pollen development in rice. Plant Cell Physiol. 49:1451-1464.
特許:
- 特開2010-86142 遺伝子クラスタリング装置およびプログラム
- 特許 第5007803号