榎本 Ph.D
はじめに
マイクロアレイ、チップは一度に多数のデータを測定できる便利なツールです。しかしながら、アレイやスポットの品質等の問題もあり、解析を行う際に注意が必要な場合があります。また使用される統計手法も解析の目的によって様々です。
シグナル計算
アレイ解析ではまず実験後のアレイ画像を解析し、スポットごとにシグナルを計算します。想定された位置に想定された大きさのスポットがあればよいのですが、実際はスポッタや実験のコンディションにより
- 想定された位置からスポットがずれている
- スポットの形・大きさが不揃い
- スポット上にゴミがのっている
等の問題がしばしば起こります。そこで画像上のスポット輪郭を自動認識し、認識したスポット領域の中でスポットシグナルを計算する、という処理が必要です。ゴミによる異常値の影響をさけるためには、シグナル計算値としてスポット領域内の中央値を使うとより安定です(ただしスポット全体にゴミの影響がある場合は十分ではない)。またシグナルが低いスポットの場合は、スポットがはっきりしないため輪郭がうまく取得できず、極端に凹凸の激しい輪郭になってしまうことがあります。この場合はある程度スムージングをして、スポット輪郭をなめらかに補正する等の処理も必要になります。
図1 凹凸スムージング例
また、複数のアレイで実験を行った場合、アレイによってはシグナルが全体的に強め、もしくは弱めにでてしまった、というようなアレイごとの偏差が生じる場合があります。このようなアレイに依存した偏りを補正するため、アレイが異なっても同じシグナルになると想定されるコントロール用のスポットを全てのアレイにスポットし、その値で各アレイごとに補正をかける方法があります。ノーザンブロットやRT-PCRでハウスキーピングジーンを基準に補正をかける方法と同じようなイメージです。また、スポット数が十分にある場合は、ほとんどのスポットデータは変化しないという前提で補正するグローバル補正を行う場合もあります。
データの統計解析
ここまで準備できましたら、あとは統計解析を行います。
手法はケースバイケースで、様々な方法がありますが、例えばスポットごとに2群の比較を行うのであれば、2標本検定等の方法があります。検定にあまり複雑な仮定を必要としないpermutation test等も一案です。全体の傾向をつかむために階層型クラスタリングを行う場合もあります。
サンプルもしくはスポット方向にZスコア化したデータ(サンプルもしくはスポットのシグナル強度の平均を0、標準偏差を1にする)で処理を行うと、サンプルもしくはスポットごとのスケールの違いが吸収されたクラスタリング結果が得られます。類似度(例:ユークリッド平方距離、マハラノビスの汎距離)や結合方法(例:群平均法、重心法、ウォード法)を指定して行います。さらにすすめて、
- 新しいサンプルの所属群を予測する予測モデルを作成する
- 複数のスポットを組み合わせた場合の判別力を検討する
- スポット以外の因子(サンプルの臨床情報等)も含め、予測に必要な因子を検討する
といった解析を行う場合があります。ロジスティック回帰分析、判別分析、SVM(Support Vector Machine)、主成分分析といった解析手法があります。このようにシグナル計算後の統計解析手法も様々です。解析の目的にあったものをそのつど検討することが大切です。
図2 クラスタリング例