19.DNAマイクロアレイのプローブを設計する

田部井

典型的なDNAマイクロアレイとは「遺伝子配列を標的としたプローブをチップ上に複数固定したもの」です。標的とする遺伝子がサンプル中に存在するか(定性)、あるいはその発現量(定量)を測定することにより、多数の遺伝子が関与する生体反応を網羅的かつ簡便に解析することができます。

プローブは、通常標的遺伝子と相補的な配列を持つ一本鎖DNAです。相補的な配列同士の間には親和力が働き、標的配列はプローブと結合して二本鎖を形成します。しかしより高精度な解析を行うためには、単に相補的なだけでなく、更に多くのパラメータを考慮したプローブ設計が必要となります。

ここでは、DNAマイクロアレイのプローブの設計条件に関して優先順位の高いものから順に説明します。なお、いくつかの設計条件は互いに相関していることに注意してください(Tm値、ハイブリ温度、GC含量、プローブ長など)。

配列特異性

ある遺伝子を標的としたプローブは、他の標的配列や、サンプル中に含まれうる雑多な遺伝子配列(解析対象外の配列)とハイブリダイズする(クロスハイブリダイズする)ことがあってはなりません。他の配列には似た領域が存在しない、標的配列特異的な領域を探し出し、そこに結合するプローブを設計する必要があります。

配列特異性の検証には、BLASTなどの無償の相当性検索プログラムを用いることができます。サンプル中に含まれうる雑多な遺伝子配列セットとしては、公共データベースのmRNA配列セット、あるいはゲノム配列などをダウンロードして使用できます。

Tm値、ハイブリ温度

二本鎖DNAは、高温の水溶液中で変性し一本鎖となります。Tm値(melting temperature)とは、二本鎖DNAの50 %が一本鎖DNAに解離する温度のことです。

ハイブリ温度は、一般的にTm値マイナス30 ℃前後に設定するのが良いとされています。アレイ解析の再現性を上げるには、同一のアレイに載せるプローブのTm値を可能な限り一致させる必要があります(±10 ℃以下)。Tm値の計算法にはGC含量をもとにしたものや、Nearest Neighber法などがあります。Web画面で計算できるサイトが多数あります。

GC含量

GC含量とは、プローブ全長におけるG塩基およびC塩基の割合(%)のことです。

G:C塩基対はA:T塩基対に比べて結合力が強いです。GC含量の高いプローブは高感度である半面、GCリッチな部分にミスハイブリしやすくなります。このため、GC含量は50 %前後を目安にするのが望ましいです。また、スクリーニングアレイなどの数千~数万の遺伝子を一度に解析するアレイの場合は、GC含量の低いプローブ(30%前後)でミスハイブリのリスクを軽減し、精度を維持することもできます。

プローブ長

プローブ長は、多くの場合他の優先される設計条件から決まってきますが、プローブの配列特異性を満足するためには50bp以上の長さが必要であることが多いです。

自己相補、繰り返し、低複雑度領域の除外

プローブ内に自己相補な領域がある場合、プローブは二次構造を形成し、標的配列とのハイブリダイゼーションを阻害します。また、繰り返し配列や、塩基組成の偏った領域などの複雑度の低い領域も、ミスハイブリの要因となります。

自己相補の検証にはRNAfold、繰り返し/低複雑度領域の検証にはRepeatMaskerなどのプログラムを無償で使用することができます。

GまたはCの配列が4塩基以上連続したものを選ばない

このような配列はテトラプレックスと呼ばれる高次構造を形成し、ハイブリ反応を阻害する場合があります。該当する領域をプローブ設計対象から除くのが望ましいです。

その他

アレイ解析の再現性を高めるには、Tm値だけでなく、プローブ長、GC含量など、可能な範囲でプローブの設計条件をそろえるのが望ましいです。

以上を踏まえた、プローブ設計のフローの一例を下記に示します。

図1. プローブ設計フロー(一例)

弊社では上記フローにのっとったプローブの受託設計を請け負っています。詳細は、プローブ/プライマー受託設計サービスをご覧ください。