27. NGSデータ処理のポイント (1) すべてのライブラリに共通して確認すべき事項

2021.06.03 堀内

はじめに

NGSデータを解析する場合、特にウェット実験とドライ解析を分業している場合は、互いに情報共有し、密に連携することが非常に重要です。時が経ってから問題が発覚した場合、以前使用した鋳型調整キットやシークエンス機種などのサービスが停止になっている可能性もあるので、データを取得したタイミングで問題がないかを確認しておくことが大切です。

本コラムでは、どんな項目を確認しておくべきか、各種ライブラリに共通して確認すべきポイントについて紹介します。

図 ライブラリ調製からNGSデータ解析までの流れ

1. ライブラリキットと構造

現在、多くの種類のシークエンスライブラリ調製Kitが各メーカーから販売されていますので、Kit名、Lot番号、消費期限など、基本的な情報は控えておくと良いです。また、シークエンスライブラリの構造も確認しておきましょう。目的断片やトリミングすべきアダプター配列、インデックス配列が入る位置を理解することができます。

図 一般的なilluminaシークエンスライブラリの構造

目的配列の両端にadapter配列を付加したものをシークエンスライブラリと呼びます。

Adapterに含まれる内容:
P5 flow cell binding sites : flow cell(基盤)に 張り付く部位
P7 flow cell binding sites : flow cell (基盤) に 張り付く部位
i5 Sample Index : P5側のIndex配列
i7 Sample Index : P7側のIndex配列
Read1 Sequencing Primer sites : Read1を読む際にSequence Primerが張り付く部位
Read2 Sequencing Primer sites : Read2を読む際にSequence Primerが張り付く部位

2. ライブラリQC結果の確認

適切なライブラリが調製できているか、Bioanalyzer等での定性計測結果も確認しましょう。例として、FASTQの頭からアダプター配列が見えているリードが多い場合は、アダプターダイマーを形成しており、定性測定結果でも、目的外サイズのピークが確認できると思います(参考資料1:p37)。

3.シークエンス条件の確認

どのような条件でシークエンスを行ったかの情報も、確認しておきましょう。(参考資料2, 3, 4)

  • シークエンス機種
  • Single End (目的断片の片側のみを読み取る)、Paired End (目的断片の両側を読み取る)
  • 読み取り長(何bp読んでいるか)
  • Multiplex(index配列を付与した複数サンプルを混ぜて、シークエンスしているか)
  • MultiplexでLow-plex poolする場合、Sample Indexの組み合わせは適切か
  • spike-in添加の有無(目的断片の塩基の多様性が低い場合、塩基のバランスをとるために添加)
  • シーケンス試薬 (名前、Lot番号、消費期限)
  • フローセル(名前、Lot番号、消費期限)

4. シークエンスデータの品質確認

FastQCなどを利用して、シークエンスデータの品質を確認しましょう。ライブラリに問題があったり、シークエンス時に問題が起こっていれば、レポート結果に反映されますので、結果をみて、次にすべき処理を検討します。

FastQCレポートの例:

5. マッピング状況の目視確認

マッピングを実施した後は、Integrative Genomics Viewer のようなGenome Browserを利用し、リファレンス配列上にどのようにリードがマップされているかを、目視確認してみると良いでしょう。データ処理した出力結果が、見た目と一致しているかを確認することは、処理が間違っていないかの確認にもなります。

最後に

弊社では、お客様が取得されたNGSデータの解析や解析環境(Docker image)のご提供を承っております。ご興味のある方はお問い合わせください。

参考文献 / 資料

  1. トラブルシューティング編~Bioanalyzerを使用したライブラリーQCと適切な定量方法~【イルミナiSchool初級】 (illumina)
  2. PhiXを使用してRun Qualityを改善する (illumina)
  3. ランを成功させるための適切なクラスター密度を得る方法 (illumina)
  4. Index Adapters Pooling Guide (illumina)