小L生信学习日记-4丨原始数据质量如何判断?-下

小L生信学习日记-4丨原始数据质量如何判断?-下

嗨,大家好,我是小L

各位是不是都已经开始搬砖了?

表扬一下看到本推文的同学,都是心系学习,不能自拔。2019,SCI都是你们的!

小L接上期的内容(戳这里),直接从第六部分开始学习FastQC结果报告:

6.Per sequence GC content

(GC含量)




横轴:每条序列的平均GC含量(%)

纵轴:序列数量

解释:对所有reads的每个位置,统计GC含量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。

图形判断

  • 软件判断标准:偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
  • 比较好的情况(如上图)是红色线条形状接近正态分布,并与蓝色线条重合。下图是一个反例:说明结果中存在大量polyA,polyT,单碱基重复序列,导致GC含量异常。



7. Per base N content

(N的比例统计)



横轴:1-150个碱基位置

纵轴:N的百分比

解释:当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生"N"。

图形判断:序列中各个位点的N含量越小越好。

  • 软件判断标准:当任意位置的N的比例超过5%,报"WARN(黄色,!)";当任意位置的N的比例超过20%,报"FAIL(红色,X)"。
  • 比较好的情况是像上图一样,红色线条的纵坐标均接近于0,N的比例很小。下图是一个反例,图形之中出现鼓包,说明有一定比例的N碱基。



8.Sequence Length Distribution

(reads长度分布)



横轴:碱基数量(序列长度,sequence length)

纵轴:序列数量

解释:在理论上,每次测序仪测出来的长度应该是完全相等的,但是总会有一些偏差。比如上图中,150bp是主要的,但是还是有少量的149和151bp的长度,不过数量比较少,不影响后续分析。当测序的长度严重不同时,表明测序仪在此次测序过程中产生的数据不可信。

图形判断:当reads长度不一致时警告,当有长度为0的read时不合格。像上图一样,序列长度集中于150bp就是比较好的情况。当然,不同测序平台的测序长度不同(例如,我司使用illumina平台进行mRNA测序得到的序列长度为150bp),只要实测reads长度集中于理论测序长度即可。

9. Sequence Duplication Levels

(重复序列统计)



横轴:序列重复的次数(1表示unique 的序列,2 表示有 2 条完全相同的 reads,以此类推)

纵轴:重复序列(duplicated reads)所占的百分比,以unique reads的总数作为 100%。

解释:蓝线展示所有 reads 的重复情况,红线表示在去掉重复(冗余)以后,原重复水平下的 reads 占去重后 reads 总数的百分比;

上图的情况中,以红线为例,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重 复的,依此类推。

图形判断

  • 软件判断标准:如果非 unique 的 reads 占总 reads 数的 20 % 以上则报 “WARN(黄色,!)”,占总 read 数的 50 % 以上则报 “FAIL(红色,X)”。
  • 测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。一个多样性比较好的文库,大部分的 reads 都应在图的左侧 (无论红线还是蓝线),如下图:



10.Overrepresented sequences

(一条序列的重复数)



正常文库内序列的多样性水平很高,不会有同一条 read 大量出现的情况。如果有某个序列大量出现,就叫做over-represented。fastQC的标准是占全部reads的0.1%以上。如果均在0.1%以下,则显示No Overrepresented sequences。

图形判断:如果有任何 read 出现的比例超过总 reads 数的 0.1 % 则报 WARN(黄色,!),超过总 reads 数的 1 % 则报“FAIL(红色,X)”。

11.Adapter Content(接头含量)



横轴:序列上每个位置的碱基

纵轴:含有接头(adapter)的序列占所有序列的比例

解释:此图衡量的是序列中两端adapter的情况,并显示可能的来源(用不同的颜色标注)

图形判断

  • 软件判断标准:含有adapter的reads超过所有reads的5%时报“WARN(黄色,!)”,超过10%报“FAIL(红色,X)”。
  • 正常的情况下接头的含量应该接近0,像上图就是比较好的情况。下图是一个反例:约80bp处,曲线逐渐升高,接头含量增加。



以上就是fastQC结果报告的全部内容了!

报告如何看,小L已经学会了。但紧接着,小L发现了一个问题,上面的11个参数中,常会出现不合格的情况(“WARN” or “FAIL”),这种情况下,该怎么办呢?能不能继续分析呢?

小L请教了金特达基因生信开发部的小哥哥,以下是他的回答原文:

  1. 质检结果没有全部通过怎么办 ,能进行后续分析吗?

原始测序数据经过fastqc质检后,很少有全部通过的情况,一般都会出现一些warning,因此没有全部通过并不意味着不能进行后续分析。但是前提条件是几个关键参数不能太差,根据经验,一般需要重点关注的主要是 'Per base sequence quality'、'Per base sequence content'和'Adapter Content'。
其中,如果'Per base sequence quality' 太差的话,说明数据的质量远没有达到符合要求的Q30或着Q20的比例,这样测到的reads很多碱基是不可信的,对下游的分析结果影响比较大。
如果'Per base sequence content'参数的结果中出现很大异常的话(比如碱基G的曲线出现明显的波动),很可能提示原始下机数据中出现了很大比例的重复read,这些重复的reads虽然本身的测序质量可能没有问题,但是有可能导致最终可用于分析的clean reads 大大减少,需要引起注意。
如果'Adapter Content'参数曲线中,出现很大比例的adapter(接头)序列的话,一般需要先根据接头序列先去掉接头序列再进行分析的。否则可能会影响后续的比对分析结果。

  1. 那么,应该重点关注哪几个质检参数?

根据1的阐述,一般需要重点关注的几个参数是:'Per base sequence quality'、'Per base sequence content'和'Adapter Content'
总的来说,QC的结果的评判还需要结合具体的项目,测序平台以及分析目的这些因素,不同的因素导致的判断也是不同的。比如是RNA-seq 还是DNA-seq ,是否是捕获测序,是否是酶切后测序,是否是多重PCR测序等等。


怎么样?是不是很佩服!



▲图片来源于soogif.com

看完专业人员的解答后,深感要学习的东西还有很多啊


下期,小L要学习测序数据经过质检之后,接下来该怎么做了。

请期待~以及点赞、转发支持!

最后来个小互动,你昨天吃的汤圆是什么馅?

小L

参考:

1.mp.weixin.qq.com/s/z078

2.bioinformatics.babraham.ac.uk

3.bioinformatics.babraham.ac.uk Analysis Modules/

转载请注明来自微信公众号“金特达基因”

你可能还想阅读:

小L生信学习日记-1丨linux入门实操笔记

小L生信学习日记-2丨生信入门必知背景知识

小L生信学习日记-3丨原始数据质量如何判断?-上

单细胞测序全搞定-2丨如何将单细胞测序融入到自己的研究之中

发布于 2019-02-25

文章被以下专栏收录