再谈适应度地形(fitness landscape)——基因突变的上位效应(epistasis)

(本专栏有关适应度地形的另外两篇文章,请移步:逃出生物进化的死胡同——从适应度地形(fitness landscape)谈起如何测定适应度地形

适应度地形的粗糙程度(Ruggedness)


1932年,Sewall Wright在他的一篇经典论文里,第一次提出把基因型和生物生存能力的关系用适应度地形(fitness landscape)来进行描述。"典型"的适应度地形如下图(引用自[2]):

图中“地表”或“山峰”的海拔高度(深蓝色是低,红色是高)就是生物的适应度,自然选择作用下的进化,实际上就是通过突变(沿着“地表”移动),找到一条通往山顶的路径,例如图上的带箭头的白色虚线。

针对适应度地形,一个最基本的生物学问题就是:它究竟长什么样?例如下面这幅图中出现的三种适应度地形,理论上都是存在的(图引自[3])
上面三个适应度地形给人最直观的印象,就是它们的“粗糙”程度很不一样:左图只有唯一的山峰,地表平滑;右图山峰多得数不过来,地表各种凹凸不平;中间的图则介乎两者之间。实际上,适应度地形的粗糙程度"Ruggedness"是其基本性质之一,并且有极为重要的生物学意义——在粗糙的地形里,生物的进化受到很大的限制,因此很难到达具有最高适应度的基因型;在平滑的地形里,进化则相对比较容易。

然而,如果我们想想隐藏在适应度地形之下的基因型,"粗糙"背后的原因就变得有意思起来。最简单直观的想法大概是这样的:如果一个基因发生一个有益突变(beneficial mutation),生物的适应度上升 x;然后它再发生另一个有益突变,适应度继续上升,累积两个突变共上升了 (x + y)。如果两个突变发生的先后顺序倒转一下,适应度同样应该是上升了 (x + y) 。如此类推,如果所有有益突变,不管顺序如何,只要它们都发生了,适应度自然也就来到了山顶,一点“粗糙”的踪影都没有。

但显然,事情没有这么简单。问题就在于,突变发生的先后顺序,会改变它们发生时对适应度的影响效果。例如,人们发现[4],如果大肠杆菌的 β-内酰胺酶蛋白质序列的 5 个氨基酸发生特定的突变,可以让大肠杆菌对一种抗生素(cefotaxime)的耐药性提高1000倍。理论上,这 5 个突变可以以任意顺序发生,因此一共有 5! = 120 条可能的进化路径。然而,测定了所有 2^5=32 个基因型的对抗生素的耐药性之后,人们发现其中只有18条路径是可用的。只有在这18条路径上,每一步的突变都是提升耐药性而不是降低。换句话说,剩下的102条进化路径中,都至少有一步突变是降低耐药性的。

上述现象背后的原因,同时也是适应度地形“粗糙”的原因,就是基因突变的上位效应(Epistasis)[注1][注2]。


什么是上位效应

为了更直观地解释,我们需要从一个很小的适应度地形谈起,它只包含两个位点(a位点和b位点),每个位点都有两个基因型(a/A 和 b/B),因此这个适应度地形包含了4个基因型(ab,Ab,aB,AB)及它们对应的适应度,如下图(引用自[5])。图中柱子的高度表示四个基因型的适应度,基因型则标示在柱子上。

如果四种基因型的适应度如图a所示,则没有上位效应。也就是说,给定的突变(a -> A),无论发生在任何遗传背景[注3]下(ab -> Ab,或者aB -> AB),其效果都是一样的。图b/c里面则有上位效应。其中图b里,一个突变(a -> A)在特定遗传背景下(ab -> Ab)对适应度的提升较大,而在其他遗传背景下(aB -> AB)则只能略微提升适应度。在图c中,一个突变(a->A)在特定遗传背景下(ab -> Ab)会降低适应度,而在其他遗传背景下(aB -> AB)则会提升适应度。


上位效应的基本类型

上位效应有几种不同的分类方法。还是根据上面的包含四个基因型的小模型,简单介绍这些分类如下:

正上位效应 (Positive epistasis)与 负上位效应(Negative epistasis)

正/负上位效应的定义,是看AB基因型的的适应度,比起无上位效应时,是变高了,还是变低了。例如第一行,左图,ab、aB、Ab基因型的适应度依次为1、1.2、1.4,因此AB基因型在没有上位效应时,其适应度应该为1.68[注4],即绿色虚线的位置。如果AB基因型的适应度高于1.68(中图,蓝色箭头),则认为有正上位效应。相反,如果AB基因型的适应度低于1.68(右图,红色箭头),则认为否负上位效应。第二行的图也类似(但放着是为了和下面的进行比较)。


协同上位效应(Synergistic epistasis) 与 拮抗协同效应(Antagonistic epistasis)

这种分类则是基于双突变的AB基因型与无突变的ab基因型的适应度的差异。还是例如第一行左侧的图,在没有上位效应时,AB的适应度是ab的1.68倍(绿色箭头)[注5]。如果AB与ab的适应度之比大于1.68,则存在协同上位效应。因为两个突变联合时,其效果"强于"两个突变的独立作用的乘积,因此两个突变之间有”协同“作用。相反,如果AB与ab的适应度之比小于1.68,则存在拮抗上位效应。第二行也类似。

如果把上面两幅图放在一起看,显然,协同/拮抗的分类原则与正/负的分类原则的差别在于AB基因型在无上位效应时,是比ab高,还是低。如果AB高于ab,则正=协同,负=拮抗,如果AB低于ab,则正=拮抗,负=协同。


幅度上位效应(Magnitude epistasis) 与 符号上位效应(Sign epistasis)

在上面两幅图中,虽然同一个突变对适应度的作用在不同遗传背景下,有一定差异,但是其作为有益突变(Beneficial mutation)或有害突变(Deleterious mutation)的性质是没有变化的。或者说,它们的符号(有益->正号,有害->负号)并没有发生变化。此时的上位效应被称作”幅度上位效应“。对应的,如果一个突变在一个遗传背景下是有益的,但在另一种遗传背景下是有害的,那么这种上位效应就称作”符号上位效应“,如下图:

在左图中,突变b->B在ab->aB时是有害的,但在Ab->AB时却是有益的,因此这是一个符号上位效应的例子(根据上面的定义,它还是一个正上位效应和一个拮抗上位效应)。更特别地,如右图,如果两个突变都是这种情况(b->B在ab->aB时有害,但在Ab->AB时有益的。同时,a->A在ab->Ab时有害,但在aB->AB时有益),这被称作双向符号上位效应(Reciprocal sign epistasis)。右图这种适应度地形——要从ab进化到AB,总是一会儿要往下走,一会儿又要往上走——恰恰符合我们对“粗糙”地形的预期[注6]。确实,造成适应度地形如此粗糙的“罪魁祸首”,正是reciprocal sign epistasis。文首提到的Sewall Wright 1932年提出适应度地形的经典论文,其主旨就是分析reciprocal sign epistasis对进化的影响。


为什么会有上位效应

造成上位效应的原因是非常多样的。例如能改变头发颜色的突变,在没有头发的人身上就没有效果,这就是一种上位效应。

在分子生物学层面,分子间或是分子内部的相互作用都可能造成上位效应,例如一个必须折叠成特别结构的RNA分子里面,如果某位点x上有一个单链状态的 A ,它在空间上的“对面” 有一个G,那么位点x上的 A->C 突变就可以使它变成双链的 C:G 配对状态,但如果“对面”的这个 G 变成了 A,那么位点x上的A->C突变就不会改变其单链状态了。

在信号通路层面,这种例子也比比皆是。例如一个细胞有两条激活基因G表达的信号通路G1、G2,则G1上面的某个基因由于发生突变而失活了也问题不大。但如果G2本身已经因突变而失效,那么G1上面的任何基因如果再失活,细胞就无法激活基因G了。

以上例子都是理论上的,事实上目前还没有很系统地分析上位效应背后的分子机制的研究。


为什么要研究上位效应

首先,在进化生物学上,上位效应是非常普遍而又重要的现象。有分子进化方面的研究表明,上位效应是决定分子进化路径的最重要的因素之一[6]。也就是分子进化经历的那个适应度地形,确实是比较粗糙的。这也是我在之前一篇文章里谈到的,进化有很多死胡同的深层次原因。另外,也有的研究发现,一些在人类基因组里面能引起重大疾病的突变,在其它物种里面能被保留下来而没有引起任何症状[7]。这种现象也能用上位效应加以解释——因为其他物种的遗传背景与人类的遗传背景不一样。

其次,包括人类的复杂遗传疾病在内的很多遗传学现象,并不能用单基因的遗传效应加以解释。有理论认为,上位效应才是解释这些复杂遗传疾病的关键[8]。举个理想化的例子,如下图:


图中每个点是一个个体,圆圈是健康人而星星是病人,每个点在两条轴上的位置对应这个个体的基因1和基因2的基因型。单看基因1或单看基因2,对区分健康人和病人都没什么帮助,但两个联合在一起看,区分就很明显了。这也是典型的上位作用——a->A的突变在ab->Ab时有益,在aB->AB时有害。需要指出的是,最近也有研究发现,上位作用的遗传效应似乎并不是很大[9]。因此学界还有争论。

最后,我们对上位效应本身的认识,还非常有限。如前文所说,尽管我们能想到很多能造成上位效应的例子,我们对真实生物中发生的上位效应背后的分子机制还没有很系统的认识[10],更不用说预测上位效应的存在与否,甚至效果如何。另外,说到底,上位效应就是一种遗传学上的相互作用,跟研究其他类型的相互作用(蛋白质-蛋白质相互作用,转录调节)一样,只有构造起整个相互作用的网络,才能对生物体作为一个系统,有更深入的了解。最后的最后,上位效应的很多经典例子,似乎都有明显的”上位“跟”下位“的区分,例如上面头发颜色那个例子,决定有没有头发的基因就是在发色基因的”上位“,个人猜测这也是”上位“这个译法的来源。但实际上,特别是深入到分子层面之后,上位效应的方向性(谁在上谁在下)是很难,甚至是无法辨别的(例如上面只有四个基因型的那些例子)。当然,人们很多时候并不在乎方向性,可另外一些时候,方向性也可能很关键的信息。目前也有的研究在尝试解决这个问题[11]。

----

注解

[注1] "上位效应"用更通俗的语言,可以描述为"Genetic interaction“——遗传学上的相互作用。人们谈论"上位效应"的时候,其指的主体(即发生相互作用的主体),可以是基因,也可以是突变,还可以是基因的表达量,等等。本文没有特别区分。但在适应度地形以及进化相关这个语境里,主要指的是突变之间的相互作用。

[注2] 严格来说,只有符号上位效应"Sign epistasis"会使适应度地形变得粗糙,但为了避免一下跳入太复杂的概念,还是先从上位效应讲起。

[注3] 所谓遗传背景就是基因组上其他位点的基因型。

[注4] 1.68 = 1.2 * 1.4。在讨论两个突变联合时对适应度产生的效果,一般都用各自的效果相乘,但在某些特殊情况/特殊定义的适应度,也有可能用加法。之前的引用自[5]的那幅图,作者大概是为了便于理解,用了加法。但后面我自己画的图就一概用乘法了。

[注5] 同上面的注4,因为是乘法原则,所以这里用除,而不是减。

[注6] 衡量粗糙程度"Ruggedness"本身是有一些计算方法的,例如看整个地形上有多少个山峰,参见[2]

参考文献:

[1] Wright, Sewall. “The Roles of Mutation, Inbreeding, Crossbreeding and Selection in Evolution.” Proceedings of the Sixth International Congress of Genetics 1 (1932).

[2] de Visser, J. Arjan G. M., and Joachim Krug. “Empirical Fitness Landscapes and the Predictability of Evolution.” Nature Reviews Genetics advance online publication (June 10, 2014). doi:10.1038/nrg3744.

[3] en.wikipedia.org/wiki/E

[4] Weinreich, Daniel M., Nigel F. Delaney, Mark A. DePristo, and Daniel L. Hartl. “Darwinian Evolution Can Follow Only Very Few Mutational Paths to Fitter Proteins.” Science 312, no. 5770 (April 7, 2006): 111–14. doi:10.1126/science.1123539.

[5] Olson-Manning, Carrie F., Maggie R. Wagner, and Thomas Mitchell-Olds. 2012. “Adaptive Evolution: Evaluating Empirical Support for Theoretical Predictions.” Nature Reviews Genetics 13 (12): 867–77. doi:10.1038/nrg3322.

[6] Breen, Michael S., Carsten Kemena, Peter K. Vlasov, Cedric Notredame, and Fyodor A. Kondrashov. 2012. “Epistasis as the Primary Factor in Molecular Evolution.” Nature 490 (7421): 535–38. doi:10.1038/nature11510.

[7] Gao, Lizhi, and Jianzhi Zhang. 2003. “Why Are Some Human Disease-Associated Mutations Fixed in Mice?” Trends in Genetics 19 (12): 678–81. doi:10.1016/j.tig.2003.10.002.

[8] Zuk, Or, Eliana Hechter, Shamil R. Sunyaev, and Eric S. Lander. 2012. “The Mystery of Missing Heritability: Genetic Interactions Create Phantom Heritability.” Proceedings of the National Academy of Sciences 109 (4): 1193–98. doi:10.1073/pnas.1119675109.

[9] Bloom, Joshua S., Ian M. Ehrenreich, Wesley T. Loo, Thúy-Lan Võ Lite, and Leonid Kruglyak. 2013. “Finding the Sources of Missing Heritability in a Yeast Cross.” Nature 494 (7436): 234–37. doi:10.1038/nature11867.

[10] Lehner, Ben. 2011. “Molecular Mechanisms of Epistasis within and between Genes.” Trends in Genetics: TIG 27 (8): 323–31. doi:10.1016/j.tig.2011.05.007.

[11] Tyler, Anna L., Leah Rae Donahue, Gary A. Churchill, and Gregory W. Carter. 2016. “Weak Epistasis Generally Stabilizes Phenotypes in a Mouse Intercross.” PLoS Genet 12 (2): e1005805. doi:10.1371/journal.pgen.1005805.

编辑于 2016-04-22

文章被以下专栏收录

    从时间(演化)和空间(基因组)的角度,探讨生命活动的基本规律,及其背后的分子机制与形成原因。