首发于量子位
谷歌跨界医学新动作:基因突变定位模型又更!新!了!

谷歌跨界医学新动作:基因突变定位模型又更!新!了!

Root 编译自 Google Research Blog
量子位 出品 | 公众号 QbitAI

去年12月,谷歌大脑发布了快速找出基因突变位点的深度学习模型DeepVariant,用图像识别的思路来精准定位出基因序列中突变的位点。

时隔5个月,谷歌大脑于今日再次更新Deepvariant,发布了0.6.0版本。

比起之前的第一版,新版在准确率上会有重大的提升。针对两个典型的测序场景——全外显子组测序,PCR,谷歌大脑团队作出了特定的优化。下面介绍一下DeepVariant相应的训练过程。

基因序列数据

一般来港,序列数据的种类多到眼花。

种类繁杂的原因有好几个:

1)人体DNA的提取有不同的来源。唾液、血液、脱落的头皮屑都OK;
2)DNA样本的处理方法有好几种;
3)DNA扩增的倍数可变;
4)DNA扩增的位置可选。

理论上,找到基因突变位点的工具可以根据特定的数据类型,进行微调。但即使时间不限,配上经验丰富的专家来做这个微调的工作,也不可能做到每种数据类型都出一个与之匹配的工具。这不科学。

但用Deepvariant模型就不一样了。

谷歌大脑团队可以根据新的数据类型要求,给模型喂代表性的数据,这样训练下来,提高准确率的同时,也能保证最终表现不受负面影响。

找寻基因突变的挖井人

深度学习模型依赖高质量的训练评估数据。

在测序领域里,归属于美国技术标准协会的瓶中基因组联盟(Genome in a Bottle,GIAB)拥有人类基因组数据,主要用于技术发展,基因评测和优化。

这个数据得来不易。

瓶中基因组联盟大量牵头做了大量的工作,最后才有了高保真度的基因组信息。这些工作包括但不限于:用尽目前已有的测序方法;把所有找寻基因突变的工具都折腾了一遍;复制了无数遍同一个人的DNA。

DeepVariant的大部分训练数据来自于GIAB第一个发布的的标准比对基因组,HG001。这个基因组的样本贡献者是一名北欧女士,也属于国际人类基因组单体型项目。

该项目是首个大规模尝试确认人类基因差异中的共同模式。

因为HG001的DNA是商用的,也富有代表性,所以很多新测序方法出来之前会拿HG001来“练手”。

用HG001里的多种复制版本和不同的数据类型,训练DeepVariant模型的话,可以提高数据类型分类的准确性,还能泛化出之前没见过的数据类型。

0.5.0版本:进化版的外显子模型

在发布0.5.0版本的时候,我们采用了兼容标准的训练思路,用的是HG002样本,第20条染色体的所有数据。

HG002,是GIAB公布的第二个基准基因组,来自一个犹太人男子。

取性别不同、种族不同的HG001和HG002的数据,可以帮助DeepVariant在面对种群的多样性时有更好的表现。

在0.5.0版本里,谷歌关注点落在了外显子数据上。

外显子只占到整个基因组信息的1%,专门指导机体产生蛋白质。很多临床上重大的基因病就是在某处外显子出了问题。

为了增加外显子序列(WES,whole exome sequencing)的精确性,谷歌特地添加了全外显子组这个数据种类,其训练数据由DNAnexus提供。

结果发现,全外显子组模型的误插误删率降低了43%,单核苷酸复制错误率降低了22%。

HG002的外显子序列错误率如上图所示。左侧显示的错误是误插误删,右边是单个核苷酸复制错了。黄色部分表示假阳性的错误,蓝色部分指的是假阴性错误。

从图可以看出,错误率降低最佳的表现出现在0.5版那次更新。

DNA扩增数据的优化

最新的0.6.0版本,解决的主要是序列拼接前,扩增数据精度提升的问题。

PCR,聚合酶链式反应,是相当便宜又简单的扩增方法。但扩增后容易出错,所以现在多用非PCR方法来准备DNA样本了。

DeepVariant之前版本的训练数据因为完全没有用PCR,所以对于用到了PCR的数据,前几版的DeepVariant的外部评测表现就不太好。

但这回,谷歌到脑添加了PCR+的训练数据,现在这种数据类型的处理准确率就显著提升,误插误删概率降低了60%。

左侧是DNAnexus评测结果,右边是bcbio的

DNAnexus、bcbio对最新版DeepVariant的独立评测结果看这里:

t.cn/RmkpEQ9

dwz.cn/7P8CAT

谷歌借助这些分析报告,了解到DeepVariant和其他找基因变异位点工具存在的不同,并进一步降低了错误率。

最新版的代码同样已经开源,谷歌大脑希望感兴趣的人能参与进来一起推动测序行业的发展。

如果大家认为某种类型的数据值得谷歌团队留意,可直接联系:github.com/google/deepv

github.com/google/deepv

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

编辑于 2018-04-23 09:32