2019年5月底对处理器产业的影响无疑是巨大的——英特尔发布了基于10nm工艺和Sunny Cove微架构打造的第十代移动酷睿lce Lake平台,AMD通过7nm工艺让Ryzen3000系列的消费级处理器进入了12核时代。作为X86阵营的最大竞争对手,ARM自然也不能让两大X86厂商独美于前,意欲通过全新的Cortex-A77CPU和Mali-G77 GPU,进一步释放移动设备的计算潜力。
不同的聚焦点
在近十年的X86处理器之争中,AMD-直扮演着英特尔跟随者的角色,直至Ryzen(锐龙)诞生才真正影响到了英特尔在该行业的霸主地位。得益于7nm制程工艺,全新的Ryzen 3000(桌面版)终于实现了对英特尔同级别处理器的性能反超(图1),并通过更低的售价博得了一众DIY玩家的青睐,为在英特尔阴影下匍匐已久的用户“伸张正义”。此外,AMD最新的移动版Ryzen 3000(U系列)也具备不俗的实力,其CPU性能可以媲美八代酷睿,GPU性能则堪比入门级独立显卡,并在轻薄本领域闯出了不小的声望。
然而,英特尔的布局较之AMD更加深远,除了追求更强的性能之外,英特尔近年来更专注于制定、完善和优化计算设备的生态系统和周边环境。以最新的lce Lake平台为例,它虽然定位于超低功耗的轻薄本战场,但却集Wi-Fi 6 GIG+、雷电3、DLBoostAl加速于一身,并通过“ProjectAthena”(雅典娜计划)来推动统一的质量标准(图2)。符合雅典娜计划标准的设备都将具备一流的便携性、快速响应、持久续航和高速连接的特性,摆明了就是要入侵原本属于ARM的平板电脑领域,弥补当年英特尔通过Atom与ARM竞争失利的遗憾(英特尔曾推出过适用于手机和平板电脑的Atom处理器,但均以失败告终)。
ARM原本就在智能手机、穿戴式和嵌入式等移动设备领域占垄断地位,从近年来Cortex-A系列CPU和Mali-G系列GPU的迭代更新来看,ARM更加专注于性能和效率的提高,并不断提升足以影响未来的Al运算能力。如今,ARM也不再满足于传统的移动设备战场,正在试图染指Windows和Mac设备,让更多的笔记本、二合一、台式机用上ARM架构的处理器。
以高通在2019年主打的驍龙8cx 5G移动平台(采用由Cortex-A76架构魔改而来的Kryo 495核心)为例(图3),其就已经具备了不错的性能和电池续航能力,同时还拥有支持5G网络和更低延迟等方面的优势。当Cortex-A77被塞进笔记本后,无疑可以进一步缩短与传统X86PC在实际体验上的差距。
难以预见的未来
X86和ARM现在正上演类似“围城”的大戏,英特尔和AMD都想挤入移动设备的圈子,而ARM却想跳出移动设备的圈子。至于最终谁能先人一步,还得看Windows系统和软件生态对ARM架构的优化程度,以及X86处理器何时能在功耗上降至接近ARM处理器的水平了。当然,这些都是后话,咱们接下来要讨论的,则是ARM最新CPU和GPU的特色,看看它们在巩固移动市场的垄断地位之后,是否还有余力去染指原本属于X86的蛋糕呢?
ARM不再是唯一
除了我们熟悉的ARM和X86以外,还有一种名为“RISC-V”的架构正逐渐崛起。RISC-V是一种基于精简指令集( RISC)原则的开源指令集架构(ISA),它没有ARM架构高昂的授权费,凭借开源、开放、精简、灵活的特性,受到了包括谷歌、华为、IBM、镁光、英伟达、高通、三星、西部数据和特斯拉在内的数百家高科技企业的加盟。
按照SiFive当前的设计能力,开发ARM架构的芯片往往需要1年甚至更久,而开发一套RISC-V架构的新IP却仅需1个月到3个月,这就是RISC-V极为精简技术特性的魅力。目前,我国已经相继成立了“中国RISC-V产业联盟”和“中国开放指令生态系统(RISC-V)联盟”,华米公司自研的面向穿戴式设备的黄山一号处理器就是基于RISC-V架构打造的(图4)。随着前不久ARM与华为终止合作的传言,势必促使更多科技企业进入RISC-V的生态圈,作为未来可替代ARM架构的“备胎”,而我们也希望RISC-V有朝一日可以成为继ARM和×86之后的又一种主流架构。
在解读Cortex-A77之前,我们需要先来回顾—下它的两个前辈,如此才能更好地了解这个全新的CPU架构。
站在巨人的肩膀上
在ARM近些年的CPU架构更新中,Cortex-A75和Cortex-A76都是极具历史地位的。其中,Cortex-A75在big.LITTLE的基础上引入了DynamIQ技术,最大限度提升了架构的灵活性与扩展性,让2(大核,即A75) +6(小核)、3+5、1+7这种更高效大小核的组合变成了可能(图5)。同时,同步升级到Cortex-A55架构的“小核”也不再是性能孱弱的代名词,当不同数量的小核和大核搭配后,可以达到一个相对完美的(性)能(功)耗平衡。
作为Cortex-A73和A75的接班人,Cortex-A76采用從零开始、全新打造的CPU微架构(基于ARM v8.2指令集设计),并与台积电7nm制程工艺强强携手,带来了ARM史上最大的性能和效率的飞跃——骁龙855较之骁龙845、麒麟980较之麒麟970都有着超过40%的CPU性能提升,同时电池寿命也有所延长。用ARM的话来说,Cortex-A76是一款“笔记本电脑”级别的高性能处理器架构,同时还具有高效能,高通“骁龙牌笔记本”主打的“Always Connected PCs”概念就是这一优势的表现所在。
ARM最新发布的Cortex-A77,其代号为“Deimos(戴莫斯,畏惧之神),采用了和A76一脉相传的CPU微架构,并在其基础上进行了一定的优化(图6),并最终获得了更高的IPC性能提升(有关IPC性能,请参考本刊上期的特别话题栏目)。可以说,A77架构是站在“巨人肩膀”上的迭代之作,其性能自然值得期待。
再度提升的性能
由于Cortex-A77继承了源自A76的微架构,所以两代核心在设计上存在很多共性。用ARM的话来说,就是芯片供应商(如高通、联发科等)在构建核心时可以非常容易地升级SoC的IP设计,不会花费太多精力和成本,从而缩短了开发周期。
和Cortex-A76相比,A77核心的前端拥有更高的读取带宽,分支预测器的目标缓冲容量提升了33%,从而降低了分支的误判,提高了预测精度。同时,A77还带来了全新的Macro-Op缓存结构,添加了额外的整数ALU,新增了一个名为“系统感知预取”的功能,可避免不必要地冲击共享缓存,从而提高整体系统性能。
根据ARM公布的数据来看,在同样使用7nm制程工艺、同样运行在3GHz频率下时(仅限于理论,实际量产的旗舰SoC主频多在2.6GHz-2.8GHz之间),新的Cortex-A77比起前代的Cortex-A76,内存带宽提升了20%,在SPEC int2006和Geekbench 4有着20%的性能提升,浮点性能则有30% -35%的提升(图7)。在智能手机领域,网页浏览恰巧是考验浮点运算的杀手级应用,所以A77浮点性能的大幅提升应该可以进一步提升实际体验。参考当前骁龙855和麒麟980的表现,Cortex-A77的CPU性能应该足以超过苹果A12,并有望和苹果还未发布的A13以及三星的下一代自研猫鼬M5核心竞争。
你被ARM Cortex-A77较前辈A76有着20%-25%的IPC性能提升且能耗保持不变惊到了?实际上,ARM最新的Mali-G77 GPU较前辈提升的幅度更大。
全新架构的诱惑
与高通和苹果SoC集成的GPU相比(如Adreno GPU),ARM自家的Mali系列GPU一直处于不温不火的状态,如果不是ARM的“亲儿子”,其影响力可能还不如PowerVR系列GPU。为了弥补自家GPU在图形领域的遗憾,ARM Mali-G77放弃了从Mali-G71到G76始终在“Bifrost”架构上缝缝补补的策略,而是改用了名为“Valhall”的新一代架构(图8),其支持全新的ISA总线和计算核心设计,针对Al运算设计了独立的单元,着重增强了抗锯齿、高分辨率以及Al辅助计算方面的性能,可以更好地适配未来4K分辨率的屏幕以及支持HDR游戏的顶级设备和标准。
根据ARM的官方数据显示,Mali-G77较之Mali-G76可以提升30%的性能和能效,Al性能更是提升了60%,每平方毫米的性能是G76的1.4倍(图9)。和更早期的Mali-G72相比,Mali-G77的功耗还下降了50%,当然,这个功耗部分大家不必太过在意,毕竟与Mali-G72搭配的还是10nm工艺,而Mali-G77即将用上最新的第二代7nm EUV工艺,功耗下降是必然的。
换句话说,Mali-G77终于有了和高通855集成的Adreno 640 GPU抗衡的底蕴。但是,ARM Mali系列GPU性能到底可以发挥几何,最终还得看芯片供应商为其配备多少计算核心,比如麒麟980和三星Exynos 9820都集成了Mali-G76,但麒麟980只为其准备了10个计算核心,也就是Mali-G76MPlO,而Exynos 9820则用上了12个计算核心,即Mali-G76MP12,所以就3D性能而言还是后者更占优势。
此外,Mali-G77即将面对的竞争对手,也将升级到骁龙865和苹果A13,这些对手的GPU只会更强,届时它们和Mali-G77相比孰优孰劣?还得等时间来验证。
目前,联发科已经正式发布了全球首款采用Cortex-A77 CPU和Mali-G77 GPU打造的5G移动平台(图10),而高通下一代骁龙865也将继续基于Cortex-A77核心“魔改”。作为消费者,我们当然期待ARM官方给出的性能指标不合水分,让下一代旗舰手机可以更强。
至于ARM全新的CPU和GPU架构能否威胁到X86在笔记本领域的统治?答案是很难,因为英特尔已经对主打低功耗的U系列移动酷睿全面升级到了四核时代(图11),结合AVX512、DL Boost等新指令集和Gen 11核心显卡的加持,ARM面对的将是一个更强悍的对手。ARM在传统PC领域最大的机会,应该是极致轻薄、持久续航、专注轻办公应用环境的细分市场,它们只能作为原有市场的补充,而不是扮演现有产品替代者的角色。