17. GWASデータを眺める

伊藤(医療情報技師)

GWAS(ゲノムワイド関連解析)では50万個を超えるSNPs(一塩基多型)がタイピングされます。次世代になると希少疾患の表現型に関連する多型マーカーが増え、100万のオーダーの検出が可能となります。

これらの膨大な情報から興味のあるSNPを抽出するためには、表現型との関連解析のP値(帰無仮説の正しさ)や効果量(表現型への影響の大きさ)をマンハッタンプロット(図1)がおススメです。

図1.マンハッタンプロット
※画像作成にはSNPAlyzeを使用しています。

横軸は座位、縦軸にP値や効果量などをプロットします。図の上方にプロットされているSNPに絞って、レポートや次の研究計画を考えることができます。

ただし、測定の誤りや異なる人種などの異質なデータが混在している場合、P値が見かけ上高くなるなど、関連解析の結果に誤りが生じる可能性があるので注意が必要です。

そこで、主成分分析による集団情報の確認をおススメします。

主成分分析では、多変量のデータ行列の情報をできるだけ損失が少ないように第一主成分という指標に圧縮します。さらに第一主成分と独立な第二主成分に情報を圧縮します。主成分分析の各主成分の寄与率を見ると、その主成分がどれだけ元のデータに貢献しているかが分かります。

例えば、元のデータに100個の変数があったとして、第一主成分と第二主成分の寄与率の合計が0.9であれば、100個の変数の情報をたった2個の変数で90%も説明できることになります。しかも、2次元になればプロットにより集団を眺めることが容易になります。

GWASデータの話に戻って、集団による差異を確認するために、各被験者のデータを多変量データの各説明変数としたデータセットを用意して主成分分析を行います。100人のデータの差異が2次元の散布図として確認できます(図2)。

図2.第一主成分と第二主成分の係数をプロット
※画像作成にはSNPAlyze、データは1000人ゲノムプロジェクトデータを使用しています。

均質なデータは近くに集まります。異端なデータは遠く離れてプロットされるなど、SNPによる個人ごとの違いを目で見ることができます。

16. OpenBUGSで欠測値補完

18. USBメモリ駆動のNGS解析環境構築済みlinux