生物信息分析:从入门到精(fang)通(qi)第5期 我们的征途是星辰大海

生信小白:震惊!一个全基因组会产生数百万个变异位点,每个位点都有这么多注释信息。我的眼睛快看不过来了。。。

西克孚肉:我们的目标往往只有几个或者几十个,所以我们要尽可能把不相关的变异过滤掉,找到最可能致病的。

生信小白:这寻找的过程不就是大海捞针嘛。

西克孚肉:对的,我们的征途是星辰大海!

Q:什么是变异过滤?

西克孚肉:

变异过滤是通过一定的过滤策略,去除与患者表型不太可能相关的变异,并尽可能减少候选变异的数目。

我们上一期注释的信息,就可以用来过滤。比如群体数据库,可以用来去除一般群体中高频率的变异,排除常见的良性变异。

过滤策略可能因不同疾病、不同情况而异,由临床医生、遗传咨询师、生信背景的专业人员根据需要来制定。

(Garvan Institute of Medical Research)

常用的过滤策略

(Garvan Institute of Medical Research)

数据质量

为了保证分析结果的可靠性,需要基于测序质量进行位点过滤,这一步目的是去除低质量数据的位点或低比对质量的位点。常用的过滤条件有变异碱基深度AAD、变异频率AD Ratio、覆盖深度DP、基因型质量值GQ、变异质量值QUAL。其中最直接的可以根据覆盖深度进行过滤,通常情况下覆盖深度越低,结果越不可信。另外,设定一定的阈值,对注释结果中的特定信息进行筛选叫做硬过滤。GATK Filter就是硬过滤,常用的参数有DP < 10,QD < 2.0,FS > 60.0,MQ < 10.0,MQRankSum < -12.5,ReadPosRankSum < -8.0等,只要突变满足其中一条,就会被过滤掉。

人群频率

gnomAD,ExAC,1000 Genomes 这些频率数据库的注释信息可以用来进行筛选。不同位点的基因型在人群中的频率是不一样的,不同人群致病变异的携带率也不大一样。一般来讲,人群中频率高的突变往往是没有致病性,可以用来过滤,排除常见的良性变异。基因变异程度可根据次等位基因频率(minor allele frequency,MAF)划分,MAF介于5%—50%之间称为常见变异,MAF介于1%—5%之间的为少见变异,MAF小于1%的为罕见变异。在研究罕见病的致病变异时,应该过滤掉非罕见变异。

《人类遗传疾病中常见变异和罕见变异的研究策略》 国际检验医学杂志 32.16(2011):1847-1850.


变异分类

根据突变所处的基因组位置,可以分为编码区和非编码区突变。根据分析的目的,可以把非关注的区域内的突变过滤掉。保留下来的变异,可以根据对蛋白质序列的影响,分为同义突变、错义突变、无义突变、终止密码突变、剪接位点突变和移码突变等。

(NEJM Illustrated Glossary)


疾病知识

通过疾病数据库进行过滤,常用的数据库有ClinVar、OMIM和HGMD。例如ClinVar是变异——表型相关的数据库,将变异分为致病(P)、可能致病(LP)、良性(B)、可能良性(LB)、意义不明确(VUS)五类,可以根据ClinVar的致病性评级进行过滤。


危害性预测结果

常见的蛋白质功能预测工具有SIFT、 PolyPhen2、MutationTaster、MutationAssessor、 CADD、FATHMM等。SIFT是根据进化保守性来预测氨基酸变化对蛋白功能的影响,变异有害性越高,值越小。PolyPhen2基于蛋白结构同源性算法,其值越大变异有害性越大。剪切位点突变危害分析工具dbscSNV是根据突变前后分值的变化来预测剪切位点的突变危害性。

《遗传变异分类标准与指南》中国科学:生命科学, 2017(06):76-96.


西克孚肉:变异的过滤还有其他的方式,常需要结合遗传模式和临床综合判断。过滤策略选择要根据实际情况和分析目的。抽丝剥茧,真相就在眼前!

生信小白:抽丝剥茧的过程中,有好多信息需要查看,一列一列信息去筛选实在是太不方便了。

西克孚肉:别担心,我即将到来的小兄弟Analyzer可以帮助你实现高效筛选。

医学遗传变异分析工具https://www.zhihu.com/video/1127888443644162048


生信小白:太棒了,它到来的时候,可一定要第一时间告诉我啊。

西克孚肉:没问题~


往期回顾:

第0期 生信分析是个什么玩意儿?

第1期 FASTQ! BAM! VCF! 傻傻分不清楚?

第2期 从FASTQ到BAM经历了什么?

第3期 变异类型知多少

第4期 变异注解之旅

发布于 2019-06-28