28. NGSデータ処理のポイント (2) RNA-seq解析データを扱う際に確認すべき事項

2021.06.21 堀内

『はじめに』

遺伝子の発現プロファイルを取得したい場合、また新規転写産物を見つけたい場合や構造を決定したい場合など、RNA-Seqデータが用いられます。各メーカーから色々な種類のRNA-seqライブラリ調製Kitが発売されている為、ライブラリ調製Kitごとの特徴をきちんと把握して、データ処理を行うことが重要です。得られたシークエンスデータに、その特徴が反映されていない場合、持ち込んだ試料の状態、ライブラリ調製時のトラブルなどが考えられるためです。本コラムでは、RNA-seqデータの処理を行う際に確認すべきポイントをご紹介します。


図 ライブラリ調製からRNA-seq内容確認までの流れ

RNA-seq 確認ポイント
1. 解析対象RNAの種類(total RNA、mRNA、targeted)
2. 生体試料の由来(細胞、組織、FFPE、血液、植物)
3. rRNA 除去の有無 / globin mRNA除去の有無
4. ストランド性の有無
5. Alignmentリードの内訳 (Coding Exon , UTR, Intron, Intergenic)
6. 5’ > 3’ のCoverageバイアス

1. 解析対象RNAの種類

non-Coding RNAも含めた解析をしたい場合は、total RNA-seq用のライブラリを調製します。Coding RNAを解析したい場合、polyA selectionによりmRNAを取得してライブラリ調製します。また、特定の遺伝子の発現量を見たい場合は、target captureという手法を取る場合もあります。(参考資料1)

2. 生体試料の由来

サンプルによってはtotal RNAの抽出・精製が困難な場合もあります。低純度・低収量のtotal RNAをライブラリ調製に用いた場合、得られたデータにも反映される場合があります。どういった試料からtotal RNAを抽出・精製したかを把握しておくことは重要です。(参考資料2)

3.rRNA除去の有無 / globin mRNA除去の有無

一般に、total RNAのうちの8割はrRNAで構成されています。polyA selectionをしているmRNA-seqやrRNAを除去したtotal RNA-seqを実施している場合、きちんとrRNAが除けているかの確認が必要です。実際には、rRNA配列にマッピングしたり、blastなどして存在比を確認しましょう。
同様に、血液由来RNAの場合でglobin除去している場合も、上記と同様にglobin mRNAの存在比を確認します。(参考資料3)

4. ストランド性の有無

Strand specificなライブラリを調整している場合、Strand Specificityが担保されているかを評価することをお勧めします。遺伝子に対して、Read1が順方向でアライメントするか、逆方向でアライメントするかについては、ライブラリ調製Kit・手法によっても異なるので、確認が必要です。(参考資料4)

5. アライメントリードの内訳 (Coding Exon , UTR, Intron, Intergenic)

mRNA-seqの場合、アライメント領域内訳としてCoding Exon、UTRへの濃縮を期待しますが、もし、IntronやIntergenicにリードが濃縮している場合は、gDNAが残存している可能性も考えられます。RSeQCやPICARD(CollectRnaSeqMetrics)のようなツールを利用して確認することができます。(参考資料5, 6, 7)


6. 5’ > 3’ Coverage

polyA selectionしているmRNA-seqの場合、RIN値が低いとgeneの3’に偏ったカバレッジ 傾向が確認できます。3’ mRNA-seqなどのように、ライブラリ調製Kitの特徴として3’にリードが偏っていることが正常の場合もあるので、上流工程の情報を事前に把握しておくことは重要です。(参考資料5:genebody-coverage-py)

最後に

弊社では、お客様が取得されたNGSデータの解析や解析環境(Docker image)のご提供を承っております。ご興味のある方はお問い合わせください。

参考文献 / 資料

1. RNA-seq (Wikipedia)
https://en.wikipedia.org/wiki/RNA-Seq
2. RNA精製を始めましょう ラボ環境の整備から精製キットの選択まで (ThermoFisher)
https://www.thermofisher.com/blog/learning-at-the-bench/rna_nap_bid_ts_1/
3. RNA-Seq of human whole blood: Evaluation of globin RNA depletion on Ribo-Zero library method (Christina A. Harrington, et al., Sci. Rep. 10, 6271, 2020) https://www.nature.com/articles/s41598-020-62801-6
4. Strandness in RNASeq (Hong Zheng, 2017-08-17)
https://littlebitofdata.com/en/2017/08/strandness_in_rnaseq/
5. RSeQC
http://rseqc.sourceforge.net/
6. CollectRnaSeqMetrics (Picard)
https://broadinstitute.github.io/picard/command-line-overview.html#CollectRnaSeqMetrics
7. RnaSeqMetrics (Picard)
http://broadinstitute.github.io/picard/picard-metric-definitions.html#RnaSeqMetrics