炼金术士的秘密——Intel 桌面独显 Arc 深入测试

炼金术士的秘密——Intel 桌面独显 Arc 深入测试

说明:本文由我和 @cloudliu 联合创作,我负责前言、架构、底层测试部分,其余为 @cloudliu 负责。

从炼金术士到德鲁伊——Intel 回归桌面独显的首部曲

在上个世纪 90 年代初,Intel 内部正面临 RISC 和 CISC 方向的巨大争议中,争论的结果之一就是名为 i860 的 RISC 处理器高调亮相,作为 Intel 第一枚 RISC 高性能处理器, i860 集成了在当时还非常罕见的 3D 图形处理单元。

底下中央位置的那枚长条白色芯片就是 NEC 的 µPD7220,Intel 在 1982 年推出了授权自 NEC 的克隆版 82720

相比之下,i860 具备一个 64 位整数 3D 图形单元,这个 3D 图形单元与浮点单元共享寄存器,可以每秒完成 50 万次 4*4 3D 矩阵变换计算,与当时一些独立 3D 图形处理板性能相当。从现在的角度来看,这个 3D 图形单元基本上可以视作后来 Pentium MMX 的先驱。

SGI RealityEngine 采用了 Intel i860 作为几何加速处理器

尽管 i860 在 SGI RealityEngine 等重要产品中获得应用,然而它并未如它的内部竞争对手 x86 那样获得长足的发展,特别是其他通用处理器也引入了图形扩展后,i860 的优势不再显著,到了 90 年代末 Intel 将这个自己一手打造的 RISC 架构产品线砍掉,取而代之的是基于第三方 RISC 指令集 ARM 的自研架构 Xscale。

虽然 i860 嘎然而止,但是 Intel 透过 i860 初步获得了业界对其图形处理的认可,开始涉足图形工作站和工业图形市场,其成果就是 1998 年推出的 i740(代号 Auburn)。i740 虽说是 Intel 生产,但是它有浓厚的 Real3D(洛克希德马丁公司的图形部门)背景,因为代号 Auburn就是 Real3D 和 Intel 一年前以 4.3 亿美元收购的 Chips and Technologies 合作项目,该项目将 CT 的 2D 技术和 Real3D 的 3D 技术进行整合,形成 i740,到后来 Intel 还索性再收购了 Real3D 20% 的股权。

从商业角度来看的话,几乎所有第三方显卡都是都推出过 i740 显卡,虽然速度离同期第一名还有一定差距,但是它具备比较稳定的渲染品质以及较低的价格,还是获得了不少用户的选择。

如果放到整个显卡市场来看的话,i740 的份额并耀眼:在1997 年 到 1998 年,Intel 一共卖出了 400 万片 i740,市场份额只有 4%,究其原因是它的性能无法和当时的竞争对手——NVIDIA、3dfx、相提并论。

在 Intel 看来,它的未来主要增长方向将会是笔记本、服务器领域,桌面的大头也是集团客户,这些客户希望在维护方面尽可能简单,独显是一个碎片化的东西,集成到芯片组中更符合 Intel 当时的发展态势。打从有了这个认知后,Intel 就决定只在芯片组后来是 CPU 中集成一个凑合够用的 GPU。

但是这只是影响 Intel 退出独显市场的一个因素而已。

除了产品策略的问题外,Intel 当时还面临来自美国联邦贸易委员会的不公平竞争诉讼。i740 的公开报价是 28 美元,但是在中国台湾的实际价格只有 7 到 18 美元,主板厂商也表示如果采购 i740 的话,可以更容易拿到 Pentium II 处理器(i740 采用的 AGP 总线是从 Pentium II 开始引入)。

到 1999 年底,英特尔做了两件事,关闭了 i740 项目,并从洛克希德马丁公司手中收购了 Real3D 的资产。

随着 Real3D 的崩溃,ATI 雇佣了许多剩余的员工并开设了奥兰多办事处。

当年 3dfx 将资产出售给 NVIDIA 之前曾经因为专利权被侵犯而起诉 Real3D。英特尔通过将所有 IP 出售给 3Dfx 解决了这个问题,3Dfx 最终落入了 NVIDIA 手中。NVIDIA 拥有 SGI 的图形开发资源,其中包括 Real3D 10% 的份额。这引发了一系列诉讼,ATI 也加入了进来。在 2001 年交叉许可和解之前,两家公司都参与了有关 Real3D 专利的诉讼。

尽管英特尔在 18 个月前才大张旗鼓地进入这个市场,但是此时英特尔已经作出了退出该市场的决定。除了法律原因外,最主要的原因其实是独显业务的贡献对英特尔来说比较一般,这个业务销售相对 NVIDIA 这样的竞争对手来说还是比较惨淡的。Intel 仍然在生产将标准 PC 芯片组与图形处理器结合在一起的集显芯片组,但这些产品的目标是售价在 1,000 美元或以下的计算机,与游戏玩家渐行渐远。

直到 2018 年,形势的发展让 Intel 有了不一样的看法。

如果将视线拉到更远的 2008 年 8 月的 SIGGRAPH 图形峰会,大家一定会记得 Intel 在这次大会上公布了代号 Larrabee 的项目,这个项目的目标是推出一个包含数十个经过美国国防部除错的 P55C 内核处理器,试图用纯 x86 通用计算内核替代 GPU。

收购了 3D Labs 团队后 信奉 x86 就是锤子的 Intel 尝试推出基于 x86 的显卡

这个在现在看来依然非常疯狂的计划所处的背景是一年前或者说 2007 年 NVIDIA 推出了名为 CUDA 的 GPU 通用计算架构。CUDA 揉合了之前人们多年在 GPU 通用计算的研究成就,为了推动 CUDA,NVIDIA 发动了有史以来最大的开发者支持力度。

举个例子,在 Fermi 发布后,仅仅是在中国大陆区,NVIDIA 一位开发者关系经理能调拨给认证 CUDA 开发者免费使用的 GeForce GTX 480 就达数百片(400+)。当时 CUDA 开发者相比现在来说还是寥寥无几的阶段,这种支持力度相当于是无限量供应了。在院校支持方面,NVIDIA 与诸多院校合作开展 CUDA 开发培训以及应用研发,培训出了大量毕业后就已经掌握 CUDA 编程的毕业生,这些毕业生如今已经活跃于各个 GPU 通用计算领域。

Intel 此时已经感到大事不妙。

众人皆知半导体发展的摩尔定律早就不那么灵光了,内存墙、功率墙让 CPU 性能发展举步维艰,业界此时普遍的认知是未来的系统架构将会是异构计算的天下。

Intel 对此的应对方式是前面所提及的 Larrabee,然而 Larrabee 虽然强调基于 x86,在编程难度上要比 CUDA 简单,但是从实际的情况看,Larrabee 如果要发挥全部效能依然需要修改大量的代码。

基于 Larrabee 二代目(Knights Landing)的 Xeon Phi上市时间是 2013 年,此时距离 Larrabee 项目公布已经过去了 5 年。而 CUDA 这边已经有 6 年,业界在异构计算方面的资源已经完全向 CUDA 倾斜,加上 Intel 在 10 纳米制程上严重拖沓,Xeon Phi 当初宣称的一些优势已经不再明显,这使得 XeonPhi 并未如 Intel 预期的那样可以代替 GPU。

反而 CUDA 这边由于拥有庞大的 GPU 用户群体,显著摊薄了开发、使用成本,获得了大量不同应用的支持,发展势头一日千里。相较之下,Xeon Phi只有 HPC 用户,变成了一种小打小闹的产品。如今国内一些打着 GPGPU 旗号的初创公司也面临着同样的问题——做出来的 GPU 并非真正的 GPU,而是缺少大量图形功能单元的向量加速器,只能服务极个别客户,难以做大,生态极其脆弱。

根据反映超级计算机性能排名的 TOP500 统计结果,在 2021 年有 38% 的算力源自 GPU,而这个比值在 6 年前只有 15%。

正是上述背景下,Intel 在 2018 年决定重启独显研发计划,项目的名称就是 Project Xe,随着该计划的启动,源自 LRB 的 XeonPhi 产品线于 2020 年被终止。

按照 Intel 原定的计划,第一款独立显卡(代号 DG1)应该在 2020 年推出,但是实际情况是有点雷声大雨点小,DG1 的问世几乎是悄无声息,原因是该卡的性能比较低,只提供给 OEM 市场,纯属试水产品,也不知道 OEM 们做这样的小白鼠是幸运还是倒霉。

DG1,只适合作为收藏品

Intel 的 GPU 团队是由 2017 年从 AMD 跳槽过来的 Raja Koduri 领导,Raja Koduri 是印度裔移民,从履历上来看是有丰富的图形芯片行业经验:

  • 1996 年加入 S3 Graphics;
  • 2001 年成为 ATI 的先进技术研发总监;
  • 2006 年 ATI 被 AMD 收购后,成为 AMD 首席图形技术官;
  • 2009 年跳槽到苹果公司,让苹果电脑实现了视网膜高分辨率显示;
  • 2013 年回巢 AMD 公司担任视觉计算副总裁;
  • 2015 AMD 重组图形部门的时候 Raja Koduri 被任命为 RTG 的高级副总裁兼首席架构师,在此期间,AMD 推出的 Polaris、Vega、Navi 都与他有关,特别是现在 Navi 架构更是由他完全负责的。

比较有意思的是,Raja Koduri 在当年 Vega 发布后,展开了一个长达 3 个月的假期,推特也基本上不再提 AMD 的任何事情,RTG 的业务也都由 AMD CEO Lisa Su 接盘。坊间当时有各种猜测,例如 Vega 表现不佳,AMD 领导层不满 Raja 的表现等等。

同行当然是在等待 Intel 的笑话,如何回敬则是 Intel 和 Raja 团队必须面对的。

根据 Intel 2021 年架构日的介绍,Intel 将其独立显卡品牌命名为 Intel ARC,按照 Intel 的说法,Arc 这个名字源自故事弧(Story Arc,表示故事里的角色或者状态转换)的概念,一并公开的还有一份长远的路线图,给人的感觉就是游戏主角的转职路线图:

按照这份路线图,2022 年第一季度问世的游戏用户GPU 代号是 Alchemist(炼金术士),之后将会是 Battlemage(魔法战士)、Celestial(天神)、Durid(德鲁伊),如果取英文首字母的话,刚巧就是英文字母表的前四个字母 ABCD。需要指出的是,ARC 并非英特尔唯一的显卡品牌,它在 2013 年(Haswell 时代)的时候专门为其高端核显推出了 Iris 品牌,更早之前则是 Intel Extreme Graphis 和 Intel GMA(Nehalem 时代)这样的产品名称。

按照正常的发展规律,初代产品主要是练练手,因此今年 Alchemist 的现实目的并非与 NVIDIA 拉开架势全面开打,而是选择销量先决为主,Intel 将桌面最高端型号定位至 RTX 3070 也说明其虽有野心,但是也清楚自身实力是什么水平。

和 AMD、NVIDIA 在产品规划上经常出现的一股乱炖不同(现在好一些)的是,Intel 很清晰地将其 GPU 产品线划分为 Xe-LP、Xe-HPG 以及 Xe-HPC,之前还有一个被取消了的 Xe-HP。

Xe-LP:核显、低端独显(应用于 OEM 办公整机或者服务器板载亮机)。

Xe-HPG:高性能独显。

Xe-HPC:高性能计算中心加速器。

当初的 Xe-HP 构想是把 Xe-HPG 做成不同 Tile(现在的叫法是 Stack)组合的型号,但是如今已经取消,留下的产品空间现在被下级 Xe-HPG(云计算、AI 推理)和上级 Xe-HPC(高性能计算、AI 训练)分食。

上图是 Intel Xe-HP 团队所有成员合照,该团队位于印度班加罗尔,可以说 Xe HP 的咖喱味很浓,它的夭折某种程度上也是可以理解的。

今年 Intel 的 Xe-HPG Intel Arc 独显就是基于 Alchemist 微架构的 DG2 系列,桌面型号包括了 A310、A380、A580、A770 以及传说中的 A780 等,其中的首字母 A 表示它们属于 Alchemist,型号数字越大代表性能越高。

Intel Arc DG2 架构

从现在开始,就让我们进入 Intel Arc 的架构,看看这个架构和 Intel 以往的 GPU 架构以及其他厂商的 GPU 架构有何不一样的地方。

为了简化内容,我想先把一些 Intel GPU 的名词予以解释,这样有助于大家了解后面的内容。

首先,Intel 今年更新了 GPU 相关的名词术语:

以大家比较熟悉的 NVIDIA GPU 名词术语为例,这里面的 XVE 相当于 NVIDIA CUDA 里的 SM SubCore,XMX 相当于 Tensor Core,XC 相当于 SM、SLC 相当于 GPC,STK 则相当于一枚可以堆叠的芯片。

XVE:XVE 或者说以前的 EU 是 Intel Xe GPU 架构里最小线程级单元,需要注意的是,XVE 虽然在概念上等同 EU,但是具体实现上有一定差别。

Xe-LP 的 EU 是一个 8 路 FP32、整数的 SIMD 单元,内部资源可以支持 7 条线程(NVIDIA CUDA 术语中相当于 Thread Block)。

在 Xe-HPG 里,每个 XVE 也有一个 8 路 FP32 FMA SIMD单元,而在 Xe-HPC 里,每个 XVE 是 16 个 FP32 FMA SIMD,都可以支持 8 个线程。

XC:Xe-Core 或者说以前的 DSS,相当于 NVIDIA CUDA 里的 SM 或者 AMD RDNA 里的 Dual Compute Unit。

每个 Xe-HPG 的 XC 内部有 16 个 8 路 FP32 XVE和 16 个 1024-bit XMX、一个指令高速缓存、一个本地线程分派器、一个 SLM(共享式局部内存)以及一个每周期 128 字节的数据端口。

理论上,Xe-HPG 的 XC 可以每个周期执行 512 个 FP16 或者 256 个 FP32(16 XVE * 8 FP32 FMA inst/XVE * 2ops/inst)操作。

每个 Xe-HPG XC 里的 SLM 容量为 192-KiB(Xe-HPC 是 512-KiB),可以供 XVE 直接访问,它的一个重要作用是共享 XVE 中并发执行的 work-item(对应 CUDA 里的 CUDA Thread)涉及的原子操作数据和信号,相当于 CUDA 里的 shared memory(SMEM) 或者 RDNA 中的 LDS。

XC 内的每个 XMX 或者说矩阵引擎是 1024-bit,在 16 个 XMX 加持下每个 XC 每个周期可以跑 4096 个 int8 操作或者 2048 个 fp16/bf16 操作、又或者是 1024 个 fp32 操作。

每个 Xe-HPG XC 都有一条 512-字节 的内存通道。

相比之下,以前 Xe-LP 时代的 DSS 具备 16 个 EU,可以每个周期执行的 FP32 操作数虽然也是 256 个 FP32 操作(16 EU * 8 FP32 FMA inst/EU * 2ops/inst = 256),但是它的内存总线只有 128 字节。

SLC:SLC 相当于 NVIDIA Ampere 里的 GPC,它能独立完成包括光栅操作在内的完整图形处理,可以视作一个小的 GPU。

在 Xe-HPG 里面,每个 SLC 具备 4 个 XC 或者说 512 个 PE(计算元)和 64 个 XMX

和 NVIDIA、AMD 将光线追踪加速单元 RTCore 或者 RA 集成到 SM 或者 DCU 类似的是,Intel 将光线加速单元 RTU 和纹理单元等所有图形相关的固定功能单元也都放在了 XC 这一级里,每个 Xe-HPG SLC 有 4 个 RTU。

在面向高性能计算的 Xe-HPC 里,每个 SLC 包含 16 个 XC,RTU 数量相应的也增加到 16 个,相比之下 NVIDIA 的 A100、H100、AMD 的 MI200 等同级别 GPU 都是没有 RTCore 或者 RA 的

在指令能力方面,Xe-HPG 不支持 DP4A FP16 指令,而 Xe-HPC 提供了支持,此外 Xe-HPC 还提供了全速率的 FP64 支持,Xe-HPG 则是完全不支持 FP64。

Intel 并未说明 XMX 是否能和 XVE 着色器一起并行运作(NVIDIA 安培架构可以)。

说起 DP4A 和 XMX,绕不开的话题自然是 Intel 的 XeSS。

XeSS 是 Intel 的超分辨率技术,相当于 AMD 的 FSR 2.0 和 NVIDIA 的 DLSS 1.9+。

NVIDIA 的 DLSS 现在遍地开花,已经有接近 200 个游戏支持 DLSS 技术,它可以用较低的分辨率进行实际渲染,然后透过超级计算机训练出来的人工智能网络参数重构出分辨率更高的画面,做到了帧率、画质我都要的效果。

Intel 的 XeSS 技术基本上就是 DLSS 的翻版,所不同的是,作为后来者,Intel 提供了两个版本的 XeSS 供开发人员选择。

它们分别是采用 XMX 加速的 XeSS 高速版和 DP4A 加速的通用版 XeSS。

XMX 版 XeSS 只能在 Intel Arc Xe-HPG 系列 GPU 上运行,透过调用 XMX 单元实现 XeSS 加速运行。

而 DP4A 采用了 DP4A 指令来执行,由于 AMD Vega 20、Navi12、 Intel Xe 以及 NVIDIA GP102 等 GPU 都提供了 DP4A 指令硬件支持,因此 XeSS DP4A 版本都可以在它们上面运行。

其实 NVIDIA 在游戏 Control 上实现的 DLSS 1.9 就是采用了软件方式执行,虽然不清楚是否使用了 DP4A 指令,但是其速度和效果令人相当满意,之后 DLSS 1.9 引入了 Tensor Core 加速,成为了 DLSS 2.x。

如果你不清楚 DLSS 1.9 的话,我可以简单说一下,DLSS 1.9 和 DLSS 1.0 相比,引入了时间域采样,显著改善了画质,DLSS 1.9 就是 DLSS 2.0 的雏形。

Intel XeSS 和 DLSS 高度相似,同样支持 AI 硬件加速、同样采用时间域采样、同样采用通用神经网络参数,实际的画质区别应该非常小,理论上是后者极具竞争力的对手。

在产品发布节奏上,Intel 在桌面产品方面选择了先行推出 DG2 的低阶版本 DG2-128 或者说 ACM11,这个 GPU 有两个 SLC,合计 8 个 XC 或者说 128 个 XVE,RTU 和 XMX 均为 8 个,手头这个 Intel ARC A380 则是该 GPU 里的最高阶型号,具备完整的 128 XVE。

底层性能测试

更多的架构细节 Intel 并没有透露多少,接下来,让我们进行一些底层测试。

底层测试并不一定能反映 GPU 的实际应用表现,但是它们的测试结果可以反映出 GPU 一些特性,其中一些是 Intel 并没有告知的。由于 GPU 的特点,部分底层测试受驱动和测试软件影响颇大,但是它们当中的一些项目是比较难以透过驱动改善。

经常看到“新驱动 战未来”之类的说法,而底层测试也许可以一定程度上告知我们这个 GPU 战未来的可能性有多高。

首先来看看指令吞吐测试(测试软件为 Nemes 的 GPU Perf Tester 0.9):

指令吞吐测试属于比较底层的测试,这类测试在编写的时候本应考虑到尽可能地榨尽 GPU 的每一滴计算能力,例如枚举或者嗅探出 GPU 内的线程和局部资源,根据这些数据设定不同级别的线程规模和数组布局,在 GPGPU 编程里的说法就是尽可能地提高 GPU 占用率。

从测试结果来看,Intel ARC A380 的 FP32 FMA 指令性能为每秒 800 GIPS 或者说 1.6 TFLOPS,较理论值低不少。INT32 FMA 的性能是 FP32 的 1/2,INT 16 FMA 是 FP32 FMA 的 两倍,因此出现了 INT16 性能是 INT32 四倍的情况。

按照 Intel Arc A380 的纸面规格,基频 2GHz 下,拥有 128 个 XVE 或者说 1024 个FP32 FMA 的理论性能应该是 2048 GIPS,800 GIPS 的实测值只是相当于理论值的 39%。

造成这个现象的可能原因估计是测试程序的强度不足以唤起 GPU 频率全速运行。

能测试 GPU 指令吞吐的程序还是不少的,为此我找来了 mixbench,得出的结果如下:

5 款 GPU 的 roofline 或者说天花板图

上图是根据测试结果绘制的 roofline 或者说天花板图,Y 轴是实测性能 GFLOPS,X 轴是每个浮点操作可匹配的内存带宽(字节)数。这种图一般应用在程序员进行 GPU 性能调优的时候,根据程序热点落在天花板图中的位置决定是否进一步优化以及优化的方向(降低访存需求还是提高计算复杂性实现更出色的特效)。

从 mixbench 来看,Arc380 的实测值大约是 2400 TFLOPS 或者说 1200 GIPS,比上面的测试结果高大约 50%,但是距离理论值 2000 GIPS 仍有不少的距离。

除了上述的两个指令吞吐测试软件外,我还测试过其他的一些指令吞吐测试,结果大同小异,A380 的 FP32 FMA 实测值距离理论值有较大距离。

看到这里,你现在有什么想法呢?先不急,后面我也会说一下这类现象的看法,看看我们是否英雄所见略同。

接下来让我们看看一些图形相关的底层测试。

首先看看像素填充率测试。说起来,这类测试我已经很少进行,但是 Intel Arc 是时隔 20 多年后 Intel 推出的独显,很好奇其图形功能方面的表现,所以安排一下。

从测试来看,A380 的纯色彩光栅处理大约是 52.9 GPixs/s,Z-ROP 跑出了 119.1 GPixs/s 的等效性能,是纯色彩的两倍。相较之下,其他 GPU 的 Z 等效性能基本上是 3 到 4 倍。Z 等效性能某种程度上反映了 GPU 进行 MSAA 时候的优化能力。

Archmark 是基于 OpenGL 的测试程序,它的几何性能测试用到了 VBO,如果不支持 VBO 的话就会转用 Display List。从测试来看,A380 的坐标变换性能似乎很差,只有每秒 1300 万三角形的水平,还不如核显 UHD750 的每秒 2.75 亿三角形。

然而在启用了光照处理后,A380 的性能出现了巨幅的提升,可能的解释就是跑坐标变换类测试的时候,GPU 处于怠速状态。当进行复杂的光照处理时候,GPU 又满血状态,甚至比包括 RTX 3050 在内的所有对手都强大。

纹理测试的时候,我让驱动保持了默认纹理优化设置。

NVIDIA 在这个测试中无法完成 5-8 层纹理的混合测试。

Archmark 提供了双线性和三线性测试,缺少各向异性过滤。

从测试结果来看,A380 的纹理过滤在 4 层三线性后和 RX 6400 相当或者说略微占优。

光线追踪方面,Intel Arc A380 也提供了硬件支持,内置了 8 个 RTU(Ray Tracing Unit),这次的对比产品里,RX 6400 和 RTX 3050 也都具备硬件光线加速能力。

我使用了一个名为 Hairball 的模型进行这个测试,这个模型有接近三百万个三角形,渲染计算很简单,因此主要测试的是 GPU 光线追踪单元,由于三角形较多,会涉及大量的三角形求交测试——目前 GPU 硬件光线追踪加速的主要步骤。

从测试结果来看,RTX 3050、RX 6400、A380 的测试结果分别为 19.8 fps、2.2 fps、5.5 fps,RTX 3050 分别是后两者的 9 倍、3.6 倍。

Nemes 根据 ImgTec 提出的硬件 RT 五种实现水平制作的特性对比图

如果按照 ImgTec 的五级(或者说六级,六级模式的时候第 0 级是纯软件执行,上图中不包含六级模式里的第 0 级)硬件光线追踪加速分级(RTLS),NVIDIA RT Core 接近于上图中的第四级,AMD 的 RA 接近于第三级,ImgTec 表示 PowerVR 的 RT3 表示已经实现了第四级。

即使考虑到 RTX 3050 本身定位高一个档次,A380 依然是有较大的差距,但是和 RX 6400 相比,A380 的三角形光线追踪性能还是要强 1.5 倍之多。

从底层测试来看,Intel Arc 系列 GPU 面临着一个比较棘手的问题——软件优化。这是一个老生常谈的问题,不过 Intel 显然还没有很好地解决这个问题。

没错,对第三方开发人员来说,可以透过一些更新就能让代码更好的运行,但是这样的代价是宝贵的时间需要耗费在旧代码调优上,如果商业公司的话,显然还需要额外的人手来应对客户技术支持,随之而来的还有不可预知的产品风险。

对 Intel 来说,最迫切的当然是让实际的应用例如游戏平稳、高速运行,这也许就是我们使用的底层测试工具目前在 Intel GPU 上出现一些状况的原因——Intel 还没有精力去顾及新 GPU 驱动的普遍性优化,对游戏的针对性优化被放在第一位。

这样的好处是在短期内能尽快见效,对卖 GPU 以及直接客户——显卡厂商和整机厂商有帮助。

更底层的通用优化需要较长时间,换而言之,对最终消费者来说,目前选择 Intel Arc A380 可能得冒着较高的踩雷风险,软件能否如期高效运行目前还是一个问号。

更重要的是,有些问题可能就是硬件约束造成的,驱动日后即使调优,可能也只是一个缓解手段,对用户来说风险依然比较高。

随着时间的推移,Intel 最终会把 Xe-HPG 架构的最好一面呈现给大家,不过时间上会是今年就搞定还是等明年的下一代呢?

答案目前还不得而知。


待更新:

  1. 后面会有 Cache/内存带宽、时延测试等结果补充。
  2. 指令吞吐测试稍后会更新。

以下内容为 Cloud Liu 负责的游戏与应用测试。

规格和分析

今年 Intel 的 Xe-HPG Arc 独显就是基于 Alchemist 微架构的 DG2 系列,桌面型号包括了 A310、A380、A580、A770 以及传说中的 A780,型号数字越大性能越高。我们本次测试的是偏向入门游戏显卡Arc A380。

架构分析部分需要一定的计算机专业知识,不感兴趣的可以跳过直接看实际测试部分。

Arc架构有2种的核心,ACM-G10是大核心,最多32个Xe-cores,ACM-G11是小核心,最多8个Xe-cores,每个Xe-core对应一个光线追踪单元。

我们本次测试的Arc A380是ACM-G11小核心的满规格,有8个Xe-cores。每4个Xe-cores为一组Render Slice,一共2个Render Slice。左边从上至下一次是显示输出,8X PCIe 4.0,下面是3个32bit的内存控制器,合计96bit。右边是视频解码编码部分的,下面有HDR映射/拜尔处理/显色空间转换等一堆新功能。

在Render Slice里,4个Xe-core每个对应一组光线追踪单元和线程调度单元。Sampler就是纹理单元,一个Render Slice有8x4个,Pixal Backend则是ROP光栅化单元,有8x2个。Arc A380有2个Render Slice,,就是说有64个纹理单元和32个ROP光栅化单元。

每个Xe-Core有16个向量引擎和16个矩阵引擎。

每个向量单元XVE可以有8个FP线程,就相当于有8个流处理器。一个Xe-core有16个XVE,那就是有128个流处理器。A380有8个Xe-Core,那就是有128x8,总计1024个流处理器。·

XMX矩阵引擎就是intel版的Tensor core,可以用来做XeSS和光线追踪降噪。

intel在ARK已经公布了Arc A380具体规格,但我们测试的蓝戟由于是超频版,在规格上存在一些差别。

规格方面,由于Arc A380是新卡,GPU-Z的信息并不能完全正确识别,这里面的部分数据是我手工计算:

  • 核心频率方面,Arc A380由于采用和RNDA 2一样的TSMC 6nm工艺,核心频率为2.45GHz(ARK标注的是2000MHz,也许是Base clock?),这样再加上流处理器的规模优势,FP32性能高达5.02GHz,和GTX 1660持平;
  • Arc A380 ROP光栅化单元数量同GTX 1650/RX 6400一样,都为32个,但借助频率优势,大幅领先GTX 1650;
  • TMU纹理单元方面,Arc A380的数量更多,同时还有更高的频率,在纹理填充率上优势更大;
  • RX 6400虽然为64bit位宽,但GDDR6频率相比128Bit的GTX 1650高了一倍,这样两卡的带宽都为128GB/S;
  • Arc A380的显存为6GB 96bit位宽,同时为高频的GDDR6,186GB/S的带宽领先GTX 1650和RX 6400 45%,略低于ARK 16Gbps 192GB/s的规格;
  • Arc A380采用先进的台积电N6工艺,有72亿晶体管,相比GTX 1650和RX 6400要多差不多一半,核心面积为157mm2,算下来晶体管密度相比RX 6400稍低。

VCZ的谣传的规格表让我这样的强迫症看了十分舒服,显卡的流处理器数量/显存容量/带宽完全是8/6/4/2/1等比缩减。这样的规格布局虽然看着舒服,但实际是不太符合经济效益的:Arc的切割单位是以渲染切片(Render Slice)为单位(对于N卡GPC),A380为完整的2个渲染切片,A310也是完整的ACM-G11砍一半。完美无瑕疵的就是满规格,有一点问题就砍一半,这样砍法还是很肉疼的。N卡则可以以更小的SM为单位(对应intel显卡的Xe-core)进行阉割,在刀法上要灵活的多,最终产品一般保留的流处理器完整规格的7-9成,这样既不用追求芯片完美,也可以保留大部分可用芯片的性能。如果需要低于7成规模的规格,就直接流片新芯片了,在量大的情况下这样更有经济效益。

Arc A380实卡赏析

我们测试的Arc 380为蓝戟提供,具体型号为GUNNIR Intel Arc A380 Photon 6G OC,这应该是A380实物的首次公开曝光。(结果不是,被人偷跑了)

A380采用双风扇设计,正面交错的斜向线条,标准的两槽宽度。

A380采用单8Pin供电,其实对于75W的TGP而言,单8Pin有些多余。8Pin旁边有个指示灯,正常工作为蓝色呼吸,供电没插或者出现问题为红色。

侧面拐角有个INTO THE UNKNOWN 进入带未知的Slogan,整体设计十分在线。

全覆盖背板上面写着PHOTON 光子,这是蓝戟的显卡系列名称,表明自己具备支持光线追踪的能力。

显示输出接口为标准的3DP+1 HDMI,但规格比较不一样:DP是2.0首发。

不过A380的DP 2.0不是满规格,是UHBR 10,并且目前没有任何DP 2.0的显示设备可用。HDMI官方标注是2.1,但这需要额外添加switch实现,本次测试的蓝戟就没有,实际HDMI 2.0上不了4K120,如果要接LG C2这条的高刷电视就有点尴尬。

拆开散热器,我们可以看见PCB全体,PCB长度大概为16cm,但散热器长21.5cm。

ACM-G11-核心尺寸为12.7x13.5mm,面积为171mm2(游标卡尺量得,官方数据为157mm2),由于是工程样板,并没有任何标识。

显存颗粒为三星的K4ZAF325BM-HC16,单颗2GB,和AMD RX 6900 XT同款,运行在15.5Gbps速率,总计3颗组成96bit的6GB的显存。

显卡散热器虽然规模不小,但只有单热管直触,热管做了镀镍处理,这样规模对于65W的功耗也绰绰有余。

国内某个AIC的PM跟我说:你知道为什么30以后就没低规格的非公卡了么,因为老黄公版的Cost down能力无敌,我们再cost down就不能正常稳定工作了。其实对于公版过于豪华并不是好事,说明成本控制存在问题,对于中低端显卡尤其明显。而现在的Arc A380其实还是稍微豪华了点。

测试平台

  • 为了贴近Arc A380目标用户的实际情况,我这次测试并没有采用以往的12900K旗舰平台,而是选择了12400+B660+DDR4 3200 8GBx2的普通配置;
  • 测试过程都使用截至6月1日最新的官方驱动,AMD显卡为Adrenalin Edition 22.5.2,NVIDIA为512.59,Arc A380驱动为30.0.191.1726,均开启Resize BAR。

3DMARK测试和分析

3DMARK我们测试了FIRESTRIKE/TIMESPY和Port Royal三个测试项目,这三个测试项目可以在很大程度反馈DX11(网游/较老的3A)、DX12(新的3A大作)和光追游戏性能。我们主要对比Arc A380同GTX 1650和RX 6400这两个对位产品的性能,而RTX 3050定位更高,仅作性能坐标参考。

DX11的Firestrike Arc A380基本和RX 6400持平,相比GTX 1650快10%。

而在DX12的Timespy测试中,Arc A380的领先优势就持续扩大,领先GTX 1650/RX 6400 40%以上。

虽然Arc A380和6500XT这种级别的光线追踪性能并没到可用程度,但我还是测试了3Dmark Port Royal的性能。Arc A380得分947基本比RX 6500 XT高了一倍,但相比RTX 3050的3500多分有极大的差距。

我们使用3DMARK Port Royal图像质量工具截取43秒截图进行画质比较,发现Arc A380在DXR的反射效果,阴影效果和降噪方面同A/N卡都没有肉眼可见的区别(没区别同样也是结论),甚至在非考察重点的抗锯齿效果上相比N卡要稍好,N卡应该是透明纹理AA存在问题。

完整的动态大图对比可以参看:imgsli.com/MTExMjE4/3/2

整体而言,Arc A380在3Dmark测试上表现较好,特别是DX12的Timespy测试,性能表现十分优异。当然3Dmark也不能完全代表实际的游戏性能,接下来我们进入游戏测试环节。

游戏性能测试和分析

游戏性能测试我们充分考虑游戏流行度和技术代表性,测试以1920x1080分辨率为主,画面设置也没有无脑更高,选择贴近用户实际使用的设置。再强调一次,我们主要对比Arc A380同GTX 1650和RX 6400这两个对位产品的性能,而RTX 3050定位更高,仅作性能坐标参考。

英雄联盟性能测试

英雄联盟我们使用召唤师峡谷无限火力的回放进行测试,使用CapFrameX记录15-18 3分钟时间的平均FPS。

我们首先使用CapFrameX抓取GTX 1650在1080p和4K分辨率下数据,发现在1080p分辨率下,GPU使用率在40%,这是明显的GPU瓶颈,而提升到4K分辨率下,GPU在70%的时间为满载,这样才能更好的体现GPU的性能差距。因此我们主要对比英雄联盟4K分辨率下的性能表现。但在4K分辨率下,CPU依然有瓶颈,如果将处理器更换为Zen 3的,性能还会有明显的提升。更严谨的说英雄联盟是延迟敏感性游戏,提升L3缓存容量可以减少CPU方面的瓶颈。

在英雄联盟中,A380相比GTX 1650要落后22%,其他卡在一定程度都碰见CPU性能瓶颈,所以性能差距并没拉开。

绝地求生性能测试

绝地求生在变成免费游戏后人气度又有所回升,我们使用DX11 1080p/3MAX(纹理/视野/抗锯齿最高,其他最低)的设置进行测试,具体测试方法是使用CapFrameX记录游戏后段回放180秒的性能。

Arc A380基本可以到达100FPS的水平,性能落后GTX 1650 20%,距离“酣畅淋漓的游戏体验”依然有明显的距离。想要酣畅淋漓,RX 6500 XT就基本可以满足,RTX 3050就很稳了。

侠盗猎车手V

GTA V虽然是3A,但究竟是PS3世代的3A,因此游戏的系统需求在2022的年的今天看也不怎么高,我们使用1080P VHQ FXAA进行测试(高级设置保持默认设置)。测试共有5个场景,FPS为五个场景FPS的几何平均。

在GTA V中,A380要比GTX 1650慢24%,这前面的几个DX11游戏基本可以说明Arc显卡在DX11游戏中性能表现很差,基本验证了前面3Dmark测试Firestrike的问题。接下来再来看看DX12游戏的情况。

古墓丽影暗影

古墓丽影暗影虽然是最早的RTX游戏,但游戏在最近一次更新进一步提升了引擎效能,并提升了DLSS的效能。我们使用高画质/RTX OFF/TAA的设置在1080P分辨率下进行测试。

在DX12的古墓丽影暗影中,A380的性能差距缩窄,仅落后8%,RX 6400也开始反超GTX 1650。

极限竞速地平线5

地平线5相比地平线4主要是对环境,特别是植被有一定提升,但其对GPU的性能需求也大幅提高,我们使用中画质/FXAA的设置在1080P分辨率下,使用游戏自带的Benchmark进行测试。

在中画质Arc A380基本可以稳定60FPS左右,但相比GTX 1650和RX 6400还是有10-20FPS的差距。此外RX 6500 XT的表现十分出色,基本越级追平RTX 3050,AMD显卡在DX12游戏表现明显优于DX11。

荒野大镳客救赎2

荒野大镳客救赎2虽然是上世代的游戏,但仍旧是现在游戏的天花板,PC版的系统要求也十分高,我们使用1920x1080 纹理高 其他低的设置,使用游戏自带的Benchmark进行测试。

虽然Arc A380的平均FPS接近60,勉强到可玩水平,但在开阔复杂场景或者激烈战斗性能还是会有明显的波动。本次测试荒野大镳客救赎2选择的Vulkan,和前面的DX12游戏表现类似,比GTX 1650慢11.6%。

单纯从3DMARK跑分,特别是Timespy跑分看,Arc A380有40%的性能优势,但在真实的游戏环境,A380性能还是不如GTX 1650的。现在的情况是, A380空有规格和理论性能,但这理论性能并不能完全的在真实的游戏环境实现。

另外在本次的测试过程中,Arc A380兼容性表现良好,没任何的报错,闪退,蓝屏或者渲染错误,作为一个全新系列的GPU能够有这样的稳定性和兼容性,还是很让人惊喜的。

视频能力和处理性能

Arc A380有2个Xe媒体引擎,其可以提供8K60 12Bit/10bit HDR的解码和编码能力,除了常规的VP9/AVC/HEVC,还提供了对AV1的完整支持。

我们使用DXVA Checker检查了Arc A380的编解码能力,其在支持编码种类/分辨率和色深上相比A/N都有明显优势。

视频处理测试我们使用UL的Procyon 2.0,调用Premiere Pro 2.0进行测试,这个测试项目分为4个部分,分别使用CPU和GPU处理1080P H264和4K H265,这里我只保留GPU部分的成绩。结果数据是完成时间,数字是越小越好。

  • RX 6400/RX 6500 XT仅有硬件解码器,而没有完整的编码器,PR处理而只能用视频解码器+OpenCL水银加速,所以性能大幅落后;
  • N卡,即使是古董的GTX 1650也可以用视频编码器+CUDA水银加速,性能优势明显;
  • Arc A380可以用视频解码器+OpenCL水银加速。但没有用到VP,利用并不充分,应该是程序支持问题,还有很大的优化提高空间。

3D专业设计软件性能测试

3D专业性能测试部分我们使用的是SPECviewperf 2020测试包,其可以测试主要是8个类别专业3D设计软件的性能,从比较常见的3DS MAX/MAYA,到工业设计领域的CATIA、Siemens NX和Solidworks,虽然其测试负载要低于真实环境,但依然可以展现相对性能。

SPECviewperf测试其实更多的是考研驱动的支持情况,而不单纯是性能,甚至还有为卖高价专业卡而人为限制的情况。在常用的3DS MAX和MAYA,还有工业设计的Solidworks是GTX 1650占优,而RX 6400在CATIA,CREO,医疗方面也有一定优势,而在Siemens NX有极大优势。

英特尔在Arc A380在能源项目领先,但在Solidworks上性能有很大问题,在最后NASA火箭运输车渲染上仅有0.26FPS,应该还是驱动兼容性存在问题。

功耗温度和噪音

GPU-Z或者其他软件第三方都无法正确读取Arc A380的功耗和风扇转速,还好我在intel RDC里找到了intel Fan Tuning Utilty,可以查看Arc的状态,甚至可以设定Power Limit。(后续更新的驱动面板 Intel Arc Control 也可以查看)

  • Arc A380官方TDP是75W,我们测试最高满载功耗是67W,但这个功耗只是GPU功耗,不是全卡功耗,全卡功耗估计和75W差不多,或者再高点。8Pin的确不必要,但不外接供电仅靠PCIe的75W就有点不太保险了。
  • 并且在满负载为定频,稳定在2.45GHz,而没有类似NVIDIA/AMD在轻载可以Boost更高的设定。
  • GPU用Furmark满载5分钟(环境温度25度),满载GPU温度1大概在66,GPU温度2在73,GPU温度2估计是Hotspot温度。其实以A380的功耗水平,这个散热规模其实是过于奢侈了。但满载风扇的噪音比较明显,2000RPM转速偏高,其实转速曲线可以再下压点,这样用户体验更好,也不用担心GPU感冒了。

测试结语

单纯从3DMARK看,Arc A380的Timespy DX12性能还不错,相对GTX 1650和RX 6400领先40%以上,相对RX 6500 XT也有明显的优势,但Firestrike DX11性能就存在明显的问题,和GTX 1650和RX 6400在一个层级,这与A380的芯片规模带来的理论性能并不相符。

但更大的问题在于真实游戏的性能,DX12/Vulkan游戏基本落后GTX 1650 8-15%,而DX11游戏落后幅度甚至高达20-25%。这样的性能也于3DMARK反馈的理论性能不相符。我们测试的蓝戟的A380还是OC超频版,2.45GHz的核心频率性能要更好,如果是公版频率,性能还会更差。并且这样的问题不仅存在于Arc A380,更大规模更高端的型号也会存在这样的问题,架构的性能效率并不会因为规模扩大而改善。

要改善这个问题,需要从驱动和游戏两个角度出发:驱动还好说,主动权在intel,现在更为困难是游戏。3DMARK是相对纯粹和中立的测试,并没有对A/N做过多的特别优化,仅仅是严格遵循DirectX的原始规则。但实际有一定技术实力的游戏开发商则为了获得更好的性能,会针对NVIDIA和AMD显卡做深层次的优化路径。但Arc既不是N卡也不是A卡,那就只能跑没有优化的标准路径。

NVIDIA经营几十年的The Way It's Meant to Be Played并不是白做,这样的合作并不是简单的卖显卡送游戏那么简单,而是从引擎构建阶段就深度参与,众多的硬件支持、各种友好而强大的API让开发者形成依赖惯性。

AMD的Gaming Evolved也不是吃素的,再加上家用性能主机全AMD GPU,开发者也会从底层充分压榨出GPU的最高性能,而这样压榨又会反哺PC游戏的A卡优化。

2021年3月,intel GPU部门老大Raja Koduri正在测试3DMARK

intel这方面就几乎是从零开始,即使是有Raji Koduri这样的业界大佬,但早期测试肯定还是聚焦于可以精确重复的标准测试程序,相对真实游戏的优化只是后来者。

目前intel在独显市场的占有率很低,再加上游戏时间开发周期也都很紧(要不也不会有这样多游戏跳票),开发商本身是缺乏足够动力去为intel显卡去做优化,但intel显卡游戏缺乏优化,这也导致产品缺乏竞争力,市场占有率上不去。这样就形成了一个先有鸡还是先有蛋的循环悖论。

上面说的还是新开发游戏,对于老游戏而言,这个问题着更为无解。大多买断制的游戏开发商在发布后一般不会有动力再去大刀阔斧的去修改图形引擎,为占有率不高的intel GPU去优化,反正卖游戏的钱已入袋。

intel的游戏生态合作开发商

在这样的情况下,intel还是需要更为主动的找开发商进行合作,给予足够的资源,促使他们对intel显卡深度优化。并且这样的开发商合作是需要投入和坚持,intel现在已经这样做。对于intel的体量而言,投入应该不是什么问题,难得是坚持,特别是在长期入不敷出的情况下。3DMARK对于A/N都没经过特殊优化,游戏对intel显卡充分优化后,也应该可以达到或者接近3DMARK中的性能表现,3DMARK的性能可以说是可以期待的上限。

另外应用优化的问题在生产力或者高性能计算方面相对问题就会比较小,应用相对集中,优化会相对简单,目前Adobe、OBS、Blackmagicdesign等都已着手进行优化,理论算力上去了就可以很好的转化为性能,。

千元卡选择建议

上面说的是性能,但购买价值是由性价比决定,还需要考虑价格和成本。


GTX 1650虽然是19年产品,采用古董的12nm工艺,但NVIDIA依然没有迭代的计划,要不也会在本月还计划更新同芯片更低端的1630。虽然GTX 1650正常价格在千元以内,但现在实际价格还是要1499,这样的价格是完全畸形的,和供求平衡关系不大,更多是人为抬价,谁买谁是冤大头。

A卡方面,RX 6400基本在1199,整体和GTX 1650相比,老的DX11游戏1650占优,新的 DX12游戏RX 6400更胜一筹,而RX 6500基本在1399-1499,从价位上来说,也基本是GTX 1650对位的竞品,但在性能上明显要高一个层级。

Arc A380的官方售价是1030元,这个价格相对于其成本并不算高,甚至有点厚道。RX 6400相比A380快了20%,零售价也基本贵了20%,单纯说游戏性价比和RX 6400持平,明显要好于现在1499溢价严重的GTX 1650。并且Arc A380提供了更无完整的编解码功能,这对于有时候要处理下视频的轻度用户还是有一定的吸引力。

但价格相对于做工过于厚道其实也是问题。我在之前就说过,同代的两个竞品,在芯片工艺没代差的情况,公版看上去寒蝉的往往是胜利者。 GPU的竞争,核心上就是架构效率的竞争,架构效率的领先者就可以用更小的晶体管数量/更低的成本实现更好的性能,在价格策略上也有更大的自主权,架构效率的落后者实现可以对抗的性能,就只能选择采用更大的规模更高功耗的芯片,更大的规模更高功耗的芯片就需要更强的供电和散热,这样看上去用料就更豪华。‘

现在蓝戟Arc A380无疑就是很豪华,不说具体数值,大家看看A380和RX 6400这两个卡的Size对比就会有更深刻的感触,但就这个LOWB卡却有更好的性能。另外现在Arc A380公版是过于豪华了,相对其65W的功耗,后面的非公其实可以用更小散热规模,无外接供电来降低成本提升竞争力。

现在Arc就是典型的用更高的成本实现了更低的性能。现在Arc A380 72亿的晶体管成本明显高于54忆的RX 6400,当然外围显存/供电的成本也会更高。整体而言,Arc A380的成本应该会在RX 6500 XT和RTX 3050之间,现在Arc A380官方建议1030元的零售价,intel估计是有点痛苦的。

问题是成本更低的NVIDIA和AMD有更大的价格主动权,GTX 1650在20年时候正常价格就不到1000,而RX 6400核心面积比A380小1/4,显存小1/3,单纯玩价格战A380是玩不过A/N,这样的情况是intel不愿意见到的,但是消费者喜闻乐见的。

intel的DG出货策略重点是品牌机,而今年的DG2出货重点也依然是品牌机,再加比较大型的SI系统集成商。虽然1030的价格已经比较厚道,但对于终端消费者是没有足够的吸引力,Arc想要卖出去,估计需要intel上游进行资源绑定和补贴。但intel的CPU产品线还有没有强势到可以玩强制绑定的地步,因此推行也还是需要依靠补贴,让品牌机或者

SI 有资源推行intel独显,同时降低消费者的获得成本,这样才能获得足够的出货量。

其实Arc在去年矿潮供求失衡的时候发布,就会相对比较轻松。而现在供求关系基本已经恢复正常,现在再开头就会比较艰难,当然,现在intel已经对Roadmap做了长期规划,而不会像当年i740那样一撮而就,而是坚持下去,能够成为GPU市场的新玩家,给显卡市场带来更多竞争,这样可以进一步推动技术发展,制衡优势厂商,而最终让消费者获益。

编辑于 2022-06-24 16:44