打破摩尔定律:谷歌与腾讯的下一代计算平台选择是?

打破摩尔定律:谷歌与腾讯的下一代计算平台选择是?

谷歌技术架构高级副总裁Urs Hölzle曾在2015年4月对美国媒体表示,谷歌肯定将切换到下一代计算平台,这就是基于OpenPOWER开放芯片架构的服务器。而谷歌服务器与存储系统设计高级总监、OpenPOWER联盟首届主席Gordon McKean表示,已经越来越难从现有的X86服务器中“榨取”更好的性能了。

无独有偶,与谷歌研发下一代计算平台同样重量级的是中国互联网公司的天蝎计划。在2016年6月22日OpenPOWER中国峰会上,腾讯服务器平台架构师、天蝎计划3.0项目经理王伟对外透露腾讯已经对OpenPOWER服务器做了较长时间的性能测试并对结果表示满意,OpenPOWER也积极参与了下一代天蝎3.0标准与规范研究。

除了谷歌和中国的互联网公司外,来自中国的电信公司、大型企业、服务器厂商、软件公司、系统集成商等也纷纷加入了OpenPOWER这一开放芯片架构联盟。

OpenPOWER:X86的另一种选择

(上图为IBM院士Bradley McCredie)

2013年8月6日,谷歌、IBM、Tyan、NVIDIA和Mellanox一起创立了后来被称之为OpenPOWER基金会的组织,这个组织的目的是就把IBM Power服务器芯片架构开放出来,以类似ARM开放移动芯片知识产权的方式,重新组建一个服务器芯片产业。

众所周知,OpenPOWER的目标是创建一个围绕IBM Power处理器架构的软硬件生态系统,从而提供一个替代英特尔系统方案。Power系列服务器一向是高端服务器的代表,但在互联网公司全面转向英特尔X86商用服务器的大趋势下,IBM选择从服务器制造走向芯片设计。

与英特尔至强服务器系列芯片不同,IBM Power是基于高端RISC芯片架构,天然支持数据分析等高性能计算,具有系统更紧凑、效率更高、能耗更低、计算能力更强等特点。目前IBM Power芯片系列已经到Power 8版本,将于2017年推出Power 9版本,OpenPOWER则是与之相对应的开源版本。

OpenPOWER芯片的独特之处在于提供了CAPI、FPGA和NVLink连接三大特性。CAPI即为一致性加速处理器接口总线协议,与传统X86架构下的PCI总线不同,CAPI让外部硬件设备可以直接访问内存而无需通过CPU中转,这样就能提升操作系统、中间件和应用软件的运行速度与性能。更为重要的是,它让CPU与FPGA芯片更优化地协同工作。

说到FPGA,不得不提到2015年6月1日英特尔宣布以167亿美元价格收购全球第二大FPGA生产厂商Altera。FPGA是可编程的芯片,FPGA与CPU及GPU联动有助于打破摩尔定律的限制,以低功耗达到更高的计算性能,英特尔也意识到了这一点,正把Altera的FPGA与至强处理器结合,向大客户提供高度定制化的芯片。而FPGA全球第一大厂商Xilinx则是OpenPOWER联盟成员,Power 8及之后的架构则提供了独有的面向FPGA优化的CAPI。

NVLink是下一代IBM Power 9的最新特性,是IBM与NVDIA等开发的CPU与GPU以及GPU与GPU之间高速大带宽直连通讯的互连协议。为什么需要CPU与GPU之间的高速通讯?NVIDIA软件开发技术总监赖俊杰表示,在人工神经元网络等的人工智能计算中,需要在多个计算芯片之间大量数据通信,这就是NVLink的价值。IBM院士Bradley McCredie介绍说,NVLink可将CPU与GPU的数据通讯从目前的16GB/s提升到40GB/s。

OpenPOWER开放架构为芯片“玩家”开放了从CPU内存到硬件主板再到与系统软件之间的多重核心技术,让“玩家”们可以根据各自的需求定制化自己的服务器芯片。然而,这还不是OpenPOWER最具吸引力的地方。Bradley介绍说,OpenPOWER最高端芯片的价格仅是英特尔至强最高端芯片E7系列价格的1/3还低,但性能却优于E7系列20%~30%,综合性价比是E7系列的3倍,而且OpenPOWER也提供包括L/LC等系列在内的中低端服务器芯片。

作为OpenPOWER联盟的中国首个成员,苏州中晟宏芯信息科技有限公司战略委员会主任卢义远表示,实际测试表明20台Power服务器相当5倍X86服务器即100台服务器的性能。相比之下,节约的占地面积以及功耗都非常可观。随着大数据与云计算爆发式的增长,卢义远认为“不超过5年大家就可以看到X86承担不了这么大规模的云计算。”

谷歌的选择

(上图为谷歌数据中心)

2016年4月,谷歌硬件工程主管兼OpenPOWER基金会总监Maire Mahony在谷歌云平台博客中发表文章称,谷歌与RackSpace共同开发了基于IBM Power 9的开放服务器架构,并将向由Facebook等发起的OCP开源硬件社区提交,从而进入下一代开放服务器设计标准。

Maire称谷歌对于计算能力与计算资源的需求是“无情的”,而且绝不会减速。在2008年的时候,谷歌找到了1万亿个网址,如今这个数字是60万亿。为了应对这个巨大的挑战,谷歌硬件工程要确保能够处理异构的计算指令集(即不同的CPU芯片),从而获得最佳性价比。

成立于1998年的谷歌在全球运维着上千万台服务器,基于摩尔定律的CPU芯片显然难以满足这样庞大规模服务器群的需求。摩尔定律总有上限,到了上限以后怎么办,这是谷歌工程师从很早以前就开始思考的问题,这也是谷歌会成为OpenPOWER基金会创始成员的原因。

Power系列服务器以更小的体积提供了更高的性能,这是小型机处理器架构服务器天然优于英特尔处理器架构的地方。Hölzle称经常被问及谷歌是否考虑切换到Power架构服务器,而“答案是肯定的”。因为即使是对于某一代产品来说,性价比的提升也是接近20%。

谷歌现在可能是英特尔服务器芯片最大的买家,但英特尔至强服务器芯片设计并不对外开放,如果谷歌要从CPU开始向上控制和优化整个硬件工程,就必须要有自己的服务器芯片。IBM选择开放自己的Power服务器芯片技术,这恰好迎合了谷歌的需求。要知道,谷歌曾研发了全球性能最强的交换机,原因是因为市场已有的交换机都不能满足谷歌的实际需求。

现在,谷歌已经在自己的数据中心内部运行了基于Power 8架构的定制化服务器,谷歌的开发人员可以根据自己的需求,在这些服务器上部署关键型应用。尽管谷歌没有对外透露这些服务器的数量以及在上面跑的具体应用,但谷歌对OpenPOWER架构芯片的态度是“All In”。

而且,谷歌还进一步与托管云及云计算技术厂商RackSpace一起设计了基于Power 9的下一代服务器架构,Power 9的设计预计于2017年正式推出。过去,云数据中心被认为是英特尔服务器芯片的天下,而RackSpace转投OpenPOWER阵营,对英特尔来说将有深远影响。

腾讯的选择

(上图为腾讯服务器平台架构师、天蝎计划3.0项目经理王伟)

在国外有谷歌,在国内就是BAT。在国外有Facebook等组建的开源硬件项目OCP,在国内就有BAT等组建的天蝎计划(后更名为ODCC中国开放数据中心委员会)。

ODCC的前身天蝎计划是2011年由BAT共同组建的开源硬件服务器的项目,致力于为中国互联网企业提供开放开源的数据中心服务器,后来随着中国电信、中国移动、中国联通以及中国通信研究院的加入,在2014年天蝎计划正式更名为ODCC开放数据中心委员会,希望为中国全行业提供开源开放的服务器解决方案。

王伟介绍说,截止目前中国大约有23万台天蝎服务器已经落地部署,为用户节约了4-5亿元人民币,同时减少了7.8万吨大气碳排放。2015年,天蝎服务器新部署了3000多个机柜接近10万多台服务器,占中国服务器市场出货量的5%,2016年预计新增4000机柜接近13万台服务,2017年将接近12%的市场占比。

天蝎整机柜能给用户带来怎样的收益?在TCO总体拥有成本方面,能够给用户带来降低10%-20%的收益,同时在故障率方面能大幅降低40%左右,而部署效率上能提高10倍以上。如今,天蝎整机柜服务器不仅面向互联网行业用户,还已经在电信运营商落地应用,未来在面向政府、企业、高性能计算、高校以及金融行业也可以找到更好的应用场景。

从2011年到如今,天蝎整机柜已经经历了2.5代的发展。在天蝎1.0的阶段,对服务器硬件架构做了一次重构,把服务器的供电子系统和散热子系统解耦,形成机柜级别的统一供电和统一散热。天蝎2.0对服务器全部子系统做了更深入的标准化和规范化,包括机架子系统、供电子系统、散热子系统、管理子系统以及服务器的节点子系统等。

2015年ODCC启动了天蝎3.0的项目研究,目标是希望进一步提高服务器资源的利用率来降低数据中心的能耗。而触发天蝎3.0研究的原因主要有两个:一是服务器内部各个子系统部件的利用率不一样,造成了不同工作负载下存在部件子系统的资源浪费;二是服务器子系统里各个部件的升级换代周期不一样,造成了服务器研发成本、运维成本和交付成本的增加。

天蝎3.0的目标需要对服务器硬件内部更高的可视化与更细的调整力度,这就需要类似OpenPOWER的开放硬件架构。IBM与OpenPOWER联盟在2015年加入了ODCC联盟,随后也积极参与了天蝎2.5的标准制定,设计和开源了一款天蝎服务器,可提供高达1TB的内存,内存性能相当于传统中高端服务器内存性能的两倍,而OpenPOWER芯片的磁盘IO能力也能将硬盘和硬盘控制性能发挥到最大化。目前,IBM正参与天蝎3.0的技术研究和规范的制定。

据王伟介绍,腾讯现在有1000PB的数据,每天还在产生接近1.8PB的用户数据和系统日志在产生,每天有5.6万亿条进入腾讯系统的消息需要被处理和分析。因此,腾讯需要一个大规模、高性能的大数据处理平台来处理这些数据,为用户创造更多的价值。

腾讯已经进行了长时间的OpenPOWER服务器性能测试和评估,认为OpenPOWER的多核多线程以及高内存带宽等特性非常适合大数据等应用场景。此外,OpenPOWER架构可以很好地发挥FPGA与GPU的联动性能,在人工智能领域有出色的性能表现。

ODCC的成员与谷歌的选择非常类似,无论是从突破摩尔定律天花板,还是摆脱英特尔对CPU级的掌控,开源开放的OpenPOWER芯片架构都是更好的选择。IBM OpenPOWER联盟总经理Ken King进一步指出,英特尔芯片越来越把计算集中到CPU本身处理,这将产生更多的瓶颈。OpenPOWER则把计算分散到内存、FPGA、网络等多个环节,“把计算资源推向数据,而不是把数据推向计算资源”,这更符合大数据实时分析的需求。

中国军团借力上位

(上图为浪潮电子副总裁李金)

自2013年8月成立OpenPOWER基金会后,也就是IBM公开Power架构至今,已经接近三年的时间。对于这样一个新的芯片生态,到现在已经吸纳了全球24个国家的200多家成员,推出了80多种产品和解决方案,支持POWER+Linux系统的ISV已超过2300家。OpenPOWER生态正在为数据中心带来一场新的变革。

而OpenPOWER自推出之日起,就受到了中国产业界的极大关注。尤其是在国产化大趋势下,服务器芯片国产化是国内技术公司的挑战,而IBM开放Power芯片则无疑是利好消息。IBM大中华区科技战略合作总经理姜锡岫表示,OpenPOWER在国内有30多家成员,涉及芯片、主板、固件、服务器、操作系统、中间件、云计算、大数据及应用等整个产业链的各个环节。

在2016 OpenPOWER中国峰会上,浪潮作为国内服务器行业的重量级厂商也宣布推出首款OpenPOWER服务器。浪潮电子副总裁李金说,在大数据、认知、云计算、互联网应用等新兴的工作负载上,看到OpenPOWER架构有着独特的性能和技术优势。浪潮致力于下一代数据中心的研究,结合了OpenPOWER服务器的多架构数据中心能更好的满足用户的各类需求。

中国移动福建公司大数据中心经理谢志崇在2016 OpenPOWER中国峰会介绍说,福建移动公司在5年之前就开始尝试探索使用Linux On Power技术服务器,现已经进入大规模应用,现有200台节点服务器在实际的生产环境当中运行。从电信运营商的角度来说,一是大规模的数据和用户数量要求非常强的处理性能,二是需要有可靠稳定的系统来保障业务连续性和系统可用性,基于这两点综合测评福建移动选择了OpenPOWER。

当然,OpenPOWER在中国的推广也不是一帆风顺。苏州中太服务器有限公司是国内最早推出基于OpenPOWER开放技术自主研发国产服务器的企业。2014年苏州中太率先加入OpenPOWER基金会,2015年推出国内首款OpenPOWER架构的服务器产品——RedPower。

苏州中太董事长王雪松表示,过去一年用户的反馈表明,RedPower在追求极致性能和大数据应用领域,其优势相较于x86来说尤为凸显。RedPower能突破x86无法突破的性能瓶颈,而当面向大数据应用订单数量达到一定规模(几百台以上)时,RedPower累积的性价比极具吸引力。

对于OpenPOWER这样一个不到三年的新生态,王雪松进一步表示,OpenPOWER走的是一条不同于x86的路,这就要求用户和服务器厂商必须迅速共享和吸收一套全新的知识体系。尤其是目前市面上有大量的应用系统完全是以x86为蓝本优化的,如果用户在购买OpenPOWER产品后并未进行定制优化的话,就无法最大程度发挥其性能,“经过我们的优化后,机器性能达到了优化前的10倍以上。”

现今,中国服务器市场竞争已经从硬件主导向应用主导过渡,不再单纯是单一产品的竞争,而是全方位解决方案的生态竞争。随着过去三年,越来越多的中国厂商和企业用户加入OpenPOWER阵营,接下来就是软件系统和应用大发展的三年。考虑到中国有全球最大的互联网公司和电信公司,OpenPOWER生态有可能在中国最先成熟。

中石化金陵分公司在“十二五”期间已经把智能制造搬到了基于OpenPOWER的混合云之上,“十三五”还准备利用大数据、云计算等技术全面提升金陵石化“两化”融合的水平,包括企业感知、协同、分析能力以及数字化、集成化、模型化、自动化、智能化等方面。这些都是OpenPOWER能够大显身手的机会。

在不远的未来,对于计算性能、数据交换与通讯能力要求更高的区块链、人工智能、虚拟现实、物联网实时数据分析等等,将是激发OpenPOWER生态大发展的杀手级应用。

OpenPOWER联盟和基金会的出现恰恰赶了上摩尔定律即将见顶、中国的国产化浪潮、互联网公司进入下一个阶段、颠覆性新技术即将规模化发展等几大趋势。所谓,风口上,想不飞也难。(文/宁川)

【更多精彩内容 尽在《云科技时代》微信 微信号:CloudTechTime】

编辑于 2016-06-27