性能暴涨 第二代AMD EPYC处理器深度解析及独家评测

2019-11-07 01:41
微型计算机 2019年17期
关键词:双路竞品内存

上一个十年,AMD曾经凭借皓龙(Opteron)在服务器、数据中心领域获得过超过四分之一的市场份额。在成功推出Zen架构之后,AMD在2017年推出了皓龙的接班人—全新的EPYC系列处理器,重新成为服务器、数据中心领域强有力的竞争者。2018年底,AMD再接再厉,正式公布了业界首款采用7nm生产工艺、基于Zen 2架构、代号“Rome”的第二代EPYC系列处理器。半年多之后,AMD终于在旧金山(当地时间8月7日,北京时间8月8日)正式发布这款产品。那么第二代EPYC系列处理器都有哪些“独门秘诀”,它的性能相比上一代EPYC处理器有多大的提升,在和竞品的较量中是否能够取得领先呢?

7nm为羽、Zen 2为翼 AMD第二代EPYC处理器技术详解

相比代号为“Napies”的第一代AMD EPYC处理器,第二代AMD EPYC处理器在生产工艺、核心架构、内存频率和带宽等诸多方面进行了升级。例如,第二代AMD EPYC处理器采用了先进的7nm生产工艺,并且基于全面升级的Zen 2架构等。那么这些升级到底能够让第二代AMD EPYC处理器在哪些方面得到增强呢?

7nm生产工艺领衔

在确定了以TSMC台积电作为合作伙伴之后,AMD迅速将全线新款产品的生产工艺推进到7nm,已经正式上市的第三代锐龙处理器和Radeon RT 5700系列显卡均采用7nm工艺生产,此次发布的第二代EPYC系列处理器当然也不会例外。台积电的7nm工艺全称是7nm HK-MG FinFET,针对不同的用途分为两种:一种为移动设备设计,被称为“7FF”,以低功耗和较高性能功耗比为主要特点;另一种为高性能处理器设计,名为“7HPC”。那么7nm生产工艺有哪些好处呢?AMD官方数据显示,采用7nm生产工艺的处理器在晶圆密度上提高了两倍;在相同性能下,功耗可以降低一半;在相同功WF,性能较前代产品可以提升25%。

如今,AMD代号为“Rome”的第二代处理器已经正式发布,而英特尔基于10nm生产工艺的服务器产品目前还没有太多信息,按照以往的惯例,服务器类产品的推出节奏通常会比消费类产品的晚一年,而10nm的英特尔消费类产品目前才刚开始发布相关品牌的产品。所以,这是在多年之后,AMD首次表示其服务器处理器在生产工艺上取得领先,特别是在每瓦性能方面。当然,目前英特尔方面则认为其10nm制程的晶体管密度更好。两者的技术特性目前尚无进一步的详细对比资料,有兴趣的读者不妨关注我们后续的报道。

Zen 2架构:全面架构提升+革命性的分离式设计

除了制造工艺上的优势之外,第二代AMD EPYC系列处理器最重要的革新其实是其核心基于Zen 2架构。相较于Zen架构,Zen 2架构在各方面都进行了增强。其中最核心的有两个部分:一是核心微架构升级,二是计算单元和I/O单元的分离。

升级核心微架构,IPC大幅提升

AMD在Zen架构设计时就非常注重提升处理器的单核心IPC性能。Zen架构核心相比前代产品单核心IPC性能提升了超过52%之多。据AMD在旧金山EPYC Horizon发布会上宣布,拥有最高64颗Zen 2核心的第二代AMD EPYC处理器,相比Zen核心架构,服务器工作负载的IPC性能提升最高达23%!

IPC性能大幅提升的主要原因在于,AMD在设计Zen 2架构时对内部架构进行了大幅改良。比如大幅改进了分支预测功能,全新的TAGE分支预测器相比上一代的Perceptron,在各级指令缓存,微操作缓存以及L1 cache的关联宽度等方面几乎都是翻倍的。在整数运算单元上,Zen 2架构的ALU数量没有变,但是管理数据载入和存储指令的AGU单元从两个提升到了3个,并提升了各种缓存大小,增强了ALU、AGU的调度能力,使其更加合理。浮点运算单元的数据路径宽度为256bit,比上一代翻倍了,不仅具有更大的吞吐量,同时也更好地实现了对AVX-256指令的支持。此外,浮点运算单元的数据载入和存储带宽也获得了提升,将使得数据的传输更具效率,并减少了与整数单元出现冲突的概率。

模块化设计带来更高灵活度

除了核心架构方面的进步,Zen 2在处理器的设计布局上也进行了变革,以便实现更高灵活度的模块化设计。CHIPLET模块化设计是基于AMD Infinity Fabric互联的增强版本,其核心思路是在单个处理器封装内链接多片独立的硅晶片。和Zen架构中每个处理器核心分别自带相关I/O模块截然不同的是,Zen 2架构彻底将处理器核心和I/O模块进行分离,处理器核心本身不再提供I/O接口而专注于运算,I/O模块则成为连接各个计算核心和外部链接的中枢。

Zen 2的计算核心采用先进的7nm制程工艺生产,有助于缩小晶片面积、提高频率、降低功耗。而I/O部分由于模拟电路更多,即使采用7nm工艺也不会带来面积、功耗等方面的明显改善,所以采用成熟的14nm工艺制造。这种创新的模块化设计的优势明显——在同等功耗下拥有更多的CPU核心,可以获得更高的性能;而与传统的单片设计相比,生产成本又更低。将这种全新的设计方法与台积电最前沿的7nm生产工艺优势相结合,Zen 2架构带来了性能、能耗和计算密度的提升,有助于大幅降低数据中心的运营成本和散热需求。

除了性能和成本上的优势,Zen 2架构所采用的模块化设计的优势还在于可以根据计算需要,灵活地将不同数量的计算核心与I/O模块搭配,以实现不同的规格。Zen 2单个计算模块的规格是8核心、16线程,单颗第二代AMD EPYC处理器的SoC封装最多可以搭配8个计算模块,这样就能够实现最多64核心、128线程的規格。此前单路CPU最多的物理核心也只有32个,所以第二代AMD EPYC处理器在物理核心数量上实现翻倍,并支持SMT技术。

而在5款纯单路产品中,EPYC 7702P的性能最强,它同样拥有64核128线程,基础频率为2.0GHz,TDP为200W,售价为4425美元,价格也同样非常实惠。当然,在这19款新品中也不乏定位中端、拥有32核64线程的EPYC 7502,以及拥有8核16线程的EPYC 7232P等入门级产品。

ROme降临:大幅超越Naples,让对手倍感压力

总的来看,率先采用7nm生产工艺、基于Zen 2架构的第二代AMD EPYC处理器的确是AMD推出的重磅产品。其先进的7nm生产工艺有助于缩小晶片面积、提高频率、降低功耗;Zen 2架构则大幅度提升了IPC;革命性的模块化设计带来了更高的灵活性。此外,第二代EPYC处理器最高达64核128线程的核心规格也让它拥有远超上一代产品的性能。不仅如此,第二代EPYC处理器的理论最大内存带宽相比上一代产品提升约21%,相比竞品更有45%的优势。而在内存频率方面,第二代EPYC处理器的内存频率最高可支持DDR4 3200,而上一代EPYC处理器支持的最高内存频率则为DDR4 2666。

坦率地说,第二代AMD EPYC处理器是一款让竞争对手倍感压力的产品,这不,英特尔赶在第二代AMD EPYC处理器正式发布之前,宣布了代号“Cooper Lake”的下一代至强可扩展处理器顶级产品的消息,但无论如何,“Cooper Lake”还是最高只有56个物理核心,还是采用的14nm生产工艺。

那么第二代EPYC处理器的实际性能究竟有多强呢?MC特别对第二代EPYC处理器中的旗舰产品EPYC 7742进行了独家测试,下面我们就来看看在7nm生产工艺和Zen 2架构的加持下,作为第二代EPYC处理器旗舰产品的EPYC 7742到底拥有怎样的性能表现。

大幅领先Naples和竞品 第二代AMD EPYC处理器独家评测

从AMD关于第二代EPYC处理器的介绍中我们可以看到,这款处理器采用行业领先的7nm生产工艺,全新升级的Zen 2架构,率先支持PCIe 4.0,并且其内存带宽大幅提升。那么得到全面升级的第二代EPYC处理器到底拥有怎样的性能表现,它的性能相比第一代EPYC处理器有多大的提升,在和竞品的较量中是否能够取得领先呢?怀揣这些疑问,我们对第二代EPYC处理器中的旗舰级产品EPYC 7742的性能进行了独家测试。作为第二代EPYC处理器中的旗舰级产品,EPYC 7742拥有惊人的64核128线程,并且其基础频率达到2.25GHz,最高Boost频率可达3.4GHz,TDP为225W。此外,这款处理器还支持组建双路系统,可在为用户带来强劲性能的同时,还能帮助用户降低成本。

AMD:双路EPYC 7442大幅领先竞品

作为被邀请的全球少数几家媒体之一,MC参加了7月9日在AMD Austin总部举行的第二代AMD EPYC NDA Reviewer Day培训,提前了解了第二代AMD EPYC的相关信息。在现场的介绍和演示中,AMD展示了两颗EPYC 7742组建的双路系统在实际测试中的性能表现(AMD提供了由两颗EPYC 7742处理器组建的双路服务器参考设计,代号为“Daytona”,也就是我们测试的这套系统。),并将其测试结果与竞争对手的双路Xeon 8280进行了对比,那么对比结果如何呢?下面我们就一起来看看。

首先在测试系统信息方面,该系统除了两颗EPYC 7742处理器以外,测试平台中还搭载了美光RDIMM DDR4 320032GB×16内存、美光256GB SSD等硬件,操作系统使用的是Ubuntu 19.04(该系统可完整支持256线程),在我们的实际测试中,除了SPEC基于Ubuntu,其它测试都是基于CentOS 7.6版本進行的。

从AMD的测试成绩来看,搭载双路EPYC7742处理器的Daytona在SPECrate2017_int_base和SPECrate2017_fp_base这两个测试项目中的表现均大幅领先竞品。首先在测试处理器整数运算性能的SPECrate2017_int_base中,Daytona的最高得分达到640分,而竞品的测试成绩为359分,前者领先约78%。此外在测试处理器浮点运算眭能的SPECrate2017_fp_base中,Daytona的领先优势也达到71%左右。不仅如此,在测试服务器JAVA应用性能的两个SPECjbb 2015测试项目中,Daytona也拥有非常明显的优势。

EPYC 7742双路系统拥有16个内存通道,支持DDR43200内存频率,并且在内存带宽上大幅领先竞品。而从AMD测试的Stream-Triad成绩来看,搭载双路EPYC 7742处理器的Daytona在内存带宽方面的表现的确比较亮眼——经过优化之后,Daytona在Stream-Triad中的测试带宽达到352087MB/s,甚至超过了竞品的最高理论内存带宽。不仅如此,AMD还使用Intel MLC(一款测试内存延迟和带宽的工具)测试Daytona的内存带宽。结果显示Daytona在这款测试软件中的内存带宽也达到300000MB/s以上。值得一提的是,从Stream和Intel MLC的测试结果我们可以看到,在不同的NUMA模式下,内存带宽的确有所不同,其中NPS4的内存带宽最高,NPS2和NPS1的内存带宽则依次降低。

此外在phoronix test suite测试软件中,AMD首先对比了C-ray 1.1、7-Zip Compression和NAMD这3个测试项目的成绩。结果显示,Daytona在这3个测试项目中的表现均明显领先竞品。不仅如此,在其他3个phoronix test suite测试项目中,Daytona的测试结果同样优势明显。

最后在UnixBench的两个测试项目中,无论是单线程还是多线程性能上,搭载双路EPYC 7742处理器的Daytona在UnixBench Whetstone中的性能都大幅领先于竞品,而且得益于更多的核心数和线程数,Daytona在UnixBench Whetstone的多线程测试中的成绩更是竞品的3倍多。

MC独家首测:双路EPYC 7742一骑绝尘

作为参加NDA Reviewer Day的全球少数几家媒体之一,MC还在第一时间对EPYC 7742双路服务器系统进行了独家测试,而测试结果也给我们带来了不小的惊喜。

在测试平台的搭建方面,为了让我们的测试结果更具对比性,测试系统中我们尽可能保证测试平台的一致性,例如在测试中我们仍然选用了DDR4 3200内存(32GB×16)。需要说明的是,我们在测试中使用的BIOS版本为RDY1001C。相比前文中AMD给出的资料中使用的BIOS,我们在测试中使用的这版BIOS在前者的基础上进行了优化,同时AMD的工程师也指出,经过优化的BIOS可进一步提升EPYC 7742双路系统的性能。

为了让大家对EPYC 7742双路系统的性能有更加直观地认识,我们决定将第一代EPYC处理器中的旗舰级产品EPYC7601作为对比产品。不过需要说明的是,由于EPYC 7601和EPYC 7742还不能在同一平台上进行测试,所以我们为EPYC7601另外搭建了一个双路测试平台。此外,由于EPYC 7601最高支持的内存频率为DDR4 2666,所以我们在测试中为它搭配的是16通道DDR4 2666内存,从而让它发挥出应有的实力。

SPECrate 2017

SPECrate 2017测试的是在单位时间内运行的实例数量,这是服务器采购时的主要性能指标,所以服务器厂商和处理器厂商通常提供的是这一成绩。在SPECrate 2017中包含SPECrateInteger和SPECrate Floating Point,前者測试的是整型并发性能,后者测试的是浮点并发性能。

得益于双倍核心数和线程数,相比上一代旗舰,双路EPYC 7742在SPECrate 2017的性能提升非常明显。首先在SPECrate2017_Int_base中,双路EPYC 7742的测试成绩是双路EPYC 7601的2.4倍。而在SPECrate2017_fp_base中,双路EPYC 7742的测试成绩也领先双路EPYC 7601约96%。不仅如此,对比前文中AMD给出的资料我们不难发现,我们的实测成绩还有小幅领先。可见我们测试时使用的最新版本BlOS的确能够提升EPYC 7742双路系统的性能。此外,由于SPEC官网上公开展示了双路Xeon 8280双路的SPECrate2017_int_base和SPECrate2017_fp_base测试结果(分别为359和293),该成绩可以作为参考。将这一测试结果和双路EPYC 7742进行对比之后我们可以看到,后者在SPECrate2017_int_base和SPECrate2017_fp_base中优势非常明显,并且领先幅度分别达到约90%和78.5%。

Stream-Traid

Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。和硬件厂商提供的理论最大内存带宽不同,通过fortran和C两种高级且高效的语言编写完成的Stream,可以在测试中充分发挥出内存的能力。Stream中一共包含Copy、Scale、Add和Triad这4种操作,由于Triad组合了前面3种操作,所以其测试成绩更具参考价值。

虽然双路EPYC 7742和双路EPYC7601均最多可支持16个内存通道,但由于前者最高可支持DDR4 3200频率内存(后者最高可支持DDR4 2666内存),所以双路EPYC 7742在Stream-Triad内存带宽测试中的表现更加优秀,达到356248MB/s。这一测试成绩不仅小胜AMD给出的结果,同时也领先双路EPYC7601的内存实测带宽约31%。此外,双路Xeon 8280理论最大内存带宽为282GB/s,相比之下双路EPYC 7742的实际内存带宽已经远超双路Xeon 8280的内存带宽最大理论值。

HPL

HPL的英文全称为“High-Performance Linpack”,Linpack是国际上一款用于测试高性能计算机系统浮点性能的基准测试工具。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考量高性能计算机的浮点性能。从HPL的测试成绩我们可以看到,双路EPYC 7742在这项测试中把双路EPYC 7601远远甩在了身后——前者的测试成绩为3938,领先后者约240%。

C-ray 1.1

C-ray是一种常用的光线追踪基准测试,可以显示多线程工作负载下处理器的差异,时间越短说明系统性能越强。在本次测试中,我们使用74K和8K这两种分辨率进行测试,从而对比参测系统在不同负载下的性能差异。从测试成绩可以看到,双路EPYC7742在4K分辨率下的测试耗时不仅比AMD给出的测试结果更短,并且也同样大幅领先竞品。不仅如此,在8K分辨率下,双路EPYC 7742的测试耗时也同样不足双路EPYC 7601的一半。我们认为,由于C-ray对处理器的核心数、频率和缓存差异都非常敏感,所以拥有更多核心数、更高频率和更大缓存的双路EPYC7742能够大幅领先也在意料之中。

7-Zip压缩性能

7-zip是一种广泛使用的压缩解压程序,它可以跨平台工作。该项测试早期主要基于Windows平台,目前也是Linux-Bench的一部分。此项测试的结果主要是通过压缩的MIPS来排序,数值越大越好。在这项测试中,双路EPYC 7742的测试成绩为416967MIPS,相比AMD给出的测试结果,我们的实测成绩提升约16%,同时参考AMD给出的竞品测试成绩可以看到,双路EPYC 7742实测成绩的领先幅度达到70%以上。

NAMD

NAMD是由伊利诺伊大学厄巴纳-香槟分校贝克曼高级科学与技术研究所的理论和计算生物物理学小组开发的分子模拟基准测试。对比AMD给出的测试成绩可以看到,我们的双路EPYC7742测试成绩有明显提升,进一步增加和竞品的优势。此外和上一代产品相比,双路EPYC 7742的性能表现几乎是前者的两倍。

刘宏兵:如今的中国互联网市场已经相对成熟,大量的中国互联网客户越来越重视TCO和收益,同时大众也在关注这些互联网公司的收益,这正是第二代AMD EPYC处理器的优势所在。

MC:请问AMD在中国的服务器合作伙伴战略是怎样的?

Scott Aylor:我们有很多中国的合作伙伴,而且宏兵和他的团队也在非常努力地工作,去支持和帮助中国的服务器厂商开发满足市场需求的服务器系统。因此,我们的生态系统正在持续壮大,中国本地服务器OEM也正在对很多服务器设计进行开发。

刘宏兵:其实我们在中国的合作伙伴生态建设有两个方向。一是大家经常想到的服务器厂商和本地OEM。今天,我们还有很多全球性的ODM,这些ODM进来以后,在本地也会变成OEM,来制造服务器设备。另外一个方向是我们和内存厂商、硬盘厂商、网卡厂商进行合作,比如我们跟所有支持PCIe 4.0的厂商合作,一起来构建生态体系统。

MC:请问AMD如何通过这种硬件加软件协作优化的方式来帮助OEM厂商和客户获得更好的AI性能?

Scott Aylor:的确,AI现在是一个非常有前景的领域,而且它横跨很多行业。您可以看到AMD带来了很多的先进技术与能力,我们将第二代AMD EPYC處理器与高性能的GPU相连接,适用于训练的应用场景(Trainning Scenario)。这种配置同时支持PCIe 4.0,也就是说把连接到GPU的带宽加倍了,从而可以对我们的机器学习和训练应用进行非常好地加速。在发布会上,我们还展示了基于AMD平台的参考设计(Reference Design),它基于支持PCIe 4.0的两颗第二代AMD EPYC处理器和8个Radeon Instinct M160 GPU,可以大幅提升机器学习的效能。在未来,我们也会将这种参考设计提供给OEM。

MC:从目前展示的AMD跟合作伙伴的合作来看,大部分都是双路的案例,很少看到单路的案例。请问AMD对单路服务器市场有怎样的看法和预期?

ScoOtt Aylor:事实上在单路服务器方面,我们的第一代EPYC处理器在市场上就有很好的采用度,而且单路服务器也非常适合广泛的网络(Web)技术领域,即那些不需要最高计算性能、用单路服务器即可满足需求的企业客户。不仅如此,我们第二代AMD EPYC处理器服务器芯片有80项记录,其中有很大一部分比例的记录都是来自于单路服务器系统。

MC观点

从目前来看,虽然英特尔在数据中心领域占有大量市场份额,但凭借7nm生产工艺、Zen 2架构,以及极具进攻性的定位和定价,AMD推出的第二代EPYC处理器同样拥有很强的市场竞争力。此外,Lisu Su博士也曾表示,AMD的目标是在未来的几个季度实现双位数的市场份额,可见AMD对第二代EPYC处理器在今后的市场表现也有足够的信心。那么随着第二代AMD EPYC处理器的上市,数据中心领域将会迎来怎样的变革,它能否成为AMD在数据中心市场份额增长的助力呢?相信市场反馈会给我们答案。

猜你喜欢
双路竞品内存
用户行为数据在竞品分析中的探索与应用
基于竞品分析的某型车辆性能开发目标
外部高速缓存与非易失内存结合的混合内存体系结构特性评测
三大步骤拿下货比三家的客户
“春夏秋冬”的内存
一种双路隔离输出反激变换器的设计
调度集中系统局间数据的双路冗余传输方案
一种单电感双路输出LED驱动电路分析
基于内存的地理信息访问技术
关于汽车竞品定义的方法与原则