中高端显示卡大杀器

2015-07-21 11:32斯特
个人电脑 2015年7期
关键词:功耗显示器架构

斯特

自从发布面向中高端的Radeon R9 285显卡之后,AMD在显卡领域就进入了沉寂期。在这段沉寂期里,AMD一直在默默地研制自己的“秘密武器”—搭载“Fiji”核心的大杀器Radeon R9 Fury X。经过无数次的“曝光”与“泄漏”之后,AMD终于在2015年6月17日这一天正式发布了各位粉丝期待已久的新旗舰显卡Radeon R9 Fury X,将这款搭载全新“Fiji”GPU的业内首款配备HBM显存的顶级产品带到了大家的面前。

高端之外还有更主流的游戏市场,AMD这次也同步推出了R300系列显卡,包括Radeon R9 390X、R9 390、R9 380、R9 370及R7 360等多个型号,但是这次的升级有喜有忧——喜的是AMD这次升级的显卡显存容量进一步提升,R9 390系列显存容量达到了8GB,最低的R9 370显卡容量都有2GB,但是R300系列显卡这次虽然使用了新的Grenada(格林纳达岛)、Antigua(安提瓜岛)、Trinidad(特立尼达岛)、Tobago(多巴哥)等新核心,但它们的架构与工艺与R200系列的显卡基本没什么变化。

与之前预期的不太一样,AMD这次把新旗舰打造成了一个独立品牌,一如NVIDIA的GTX Titan显卡一样,定位要比普通的Radeon R9显卡要高一些。Fury这个名字早些年在ATI时代也用过,虽然不如NVIDIA选择的Titan(泰坦)容易上口,目前也没有正式的中文名,不过Fury跟之前ATI的Rage显卡一样都有“狂怒”之意。AMD这次确实有必要把Fury显卡同其他R9系列显卡区别开来,因为Fury不仅拥有AMD史上规模最大的GPU核心,还首次使用了HBM显存,它不同于目前大量使用的GDDR5显存,而HBM显存不仅性能上领先GDDR5,而且是首次使用堆栈式设计,显存不用再独立于GPU核心了,GPU、显存芯片首次集成在一块集成电路内,

AMD Radeon R9 Fury X显卡架构

AMD的Fury X显卡使用的是新一代的Fiji核心,它还是GCN架构体系的,不过运算单元的规模继续攀升,最初的Tahiti核心是32组CU单元,Hawaii提升到了44组,现在Fiji的CU单元数量一举提升到了64组,总计4096个流处理器单元,256个纹理单元,64个ROP单元,核心面积达到了596mm2,晶体管数量则达到了89亿个,比NVIDIA的GM200核心的80亿个还要多。

自从进入DX10的统一架构以来,AMD的显卡架构一直是SIMD体系的VLIW架构,从HD 2900系列一直沿用到HD 6800系列。随着时间的推移,VLIW架构的弊端也日益明显,而且GPU通用计算技术发展迅猛,为此AMD在2011年拿出了代号GCN(Graphic Core Next)的新一代GPU架构,开始向3D渲染以及GPU计算两个方向同时发力。在公布GCN架构时,AMD喊出了“Graphic is Compute,Compute is Graphic”的新目标,表达了图形就是计算,计算就是图形的宏达理想,在保证GPU的图形渲染能力的同时也在GPU通用计算上发力。从GCN的架构上来看,其多线程能力得以增强,每个CU单元可以执行4条线程,40条wave,而在缓存设计上,AMD也不再那么保守,每个CU单元都有自己的L1缓存、共享的L1指令缓存,所有CU也会共享768KB的L2缓存,后者还将联通显存以及CPU内存,做到数据实时同步与共享,因此GPU和CPU交换数据更容易。外部支持上,GCN也支持C/C++等高级编程语言,简化开发者迁移平台的难度,另外支持ECC纠错也提高了数据运算的可靠性,这两点改进对GPU计算来说都是关键性的提升。

相对于Hawaii/Grenada核心来说,Fiji前端单元没有变化,同样是8组ACE单元,4组几何单元(曲面细分单元),4组渲染引擎(Shader Engine),但CU计算单元数量增加到了64组,每组渲染引擎单元包含了16组CU单元,之前的Hawaii是每组11个CU单元。另一个值得注意的变化是显存控制器,Hawaii/Grenada是8组64bit GDDR5主控,总计512bit位宽,而Fiji核心增加了HBM显存支持,所以有4组HBM显存控制器。

总之,对Fiji核心来说,GPU核心方面的变化主要是增加HBM显存支持,同时继续扩展CU单元,64组CU单元已经是R9 290X的两倍规模,不过核心面积只提高了36.7%,晶体管数量增加了43.5%。

Radeon R9 390&390X架构

Radeon R9 390X使用的是Grenada核心,也是44组CU单元,2816个流处理器核心,跟R9 290X显卡是一样的,不过最高核心频率从1000MHz提升到了1050MHz,显存频率提升到了1500MHz显存容量从4GB提升到了8GB。

Radeon R9 390拥有40组CU单元,2560个流处理器单元,跟R9 290显卡规格是一样的,不过其最高核心频率也从之前的947MHz提升到了1000MHz,显存频率提升到了1500MHz,显存容量也是8GB。

HBM显存

AMD的Radeon R9 Fury X显卡是近几年来最让小编期待的显卡,因为它使用了不同于目前在用的GDDR5显存的HBM技术。此前参加AMD的发布会时,AMD公司负责开发HBM技术的院士Bryan Black表示他们研发HBM技术已经有13年了(加入AMD之前就在研发3D堆栈技术了,2007年进入AMD公司),多年的研究终于在Fury X显卡上开花结果,怎能不让人兴奋。

目前显卡使用的GDDR5显存是8年前问世的,它取代了过渡性质的GDDR4内存,它的技术基础跟DDR3相似,不过GDDR5是双并行总线的,是四倍速率的,而DDR3是双倍速率的,所以数据频率上GDDR5达到了DDR3的两倍,目前显卡上使用的GDDDR5显存数据频率已经达到了7Gbps(实际频率1750MHz),SK Hynix去年底推出了8Gbps速率的GDDR5显存,但并没有显卡使用呢。

随着游戏技术的发展,高纹理高画质对显卡的带宽要求更高,所需的显存带宽也更高,而提升带宽要么提升频率要么提升位宽,目前的GDDR5显存再继续提升频率已经很困难,32bit的位宽又是固定的,所以厂商们需要另寻它法了。

HBM就是换一种思路的产物,它的真实频率比GDDR5显存低得多,但1024bit位宽则比GDDR5高得多,再加上DDR内存的倍速机制(数据频率1Gbps),单个显存芯片的带宽可以从之前28GB/s(7Gbps*32/8)提升到128GB/s(1Gbps*1024/8),AMD的Fury X显卡使用的是4组HBM芯片,总带宽高达512GB/s,而目前R9 290X显卡的带宽只不过320GB/s,HBM显存芯片的带宽提升了60%以上。

GDDR5不能继续大幅提升频率的原因之一就是高频率带来的功耗将会抵消其优势,目前GDDR5显存的频率已经是1.5V,而HBM只需要1.2V电压,电子电路的动态功耗跟运行电压的平方成正比,所以电压降低到1.2V就可以大幅降低功耗了。根据AMD公布的数据,HBM内存每瓦带宽可达35GB/s以上,而GDDR5每瓦带宽只有10.66GB/s,能耗效率方面HBM完胜GDDR5显存。

性能及功耗优势之外,HBM还可以节省大量PCB空间,因为目前的显卡大都需要使用4、8甚至16颗GDDR5芯片,1GB GDDR5就要占用672mm2的面积,1GB HBM显存只要35mm2,同容量下芯片表面积只有GDDR5的1/19。

以R9 290X与Fury X显卡为例,R9 290X占用的GPU和显存面积超过9900mm2(90x110mm),而基于HBM技术的GPU+显存占用的面积不到4900mm2,PCB面积可以减少50%以上。也正因为如此,我们才得以见到PCB只有7.5寸的Fury X显卡,未来还会有更小的R9 Nano显卡。

前面列举了HBM技术的各种优点,说起来是很轻松的,但这么多年来很少有公司能实现,这是因为HBM显存还需要复杂的制造工艺,AMD为此做了大量研究,最终HBM显存自身使用了TSV穿透硅通孔工艺,而HBM与GPU之间的互联则使用中介层技术,所以AMD的HBM方案实际上是2.5D堆栈,还不是传统意义上的3D堆栈。

中介层技术说起来也很简单,但实际情况不是在HBM与GPU之间加个中介层那么简单,此前在北京发布会上听过Bryan Black的解释,实际操作起来要复杂多了,既要保证中间层有铜柱保持通电性,还要移除多余的WSS保护层,期间要经过UMC、Amkor(安可)、日月光等封测公司层层制造才能完成的。

看起来,HBM是一个近乎无敌的新技术了:功耗低、体积小、性能强,事实是这样吗?并非如此。目前通过已有的技术资料来看,HBM仍有一个隐患存在。量为2Gb(256MB),因此每颗容量为1GB。整体四颗,总的显存容量就是4GB。当然了,8GB HBM也可以有,但那只能在Fiji VR双芯显卡上实现,每个核心还是4GB。如前所述,这只是第一代HBM的情况,明年的第二代就会翻一番。AMD计算域图形事业群CTO Joe Macri确认了这一点。

也就是说,我们能看到的第一代使用HBM显卡的产品最多只有4GB容量,并且这个局限性是第三方厂商也无法改变的,没错,就算华硕、蓝宝石也不行,这远远超过了他们的能力范围。可想而知,在交火或者高分辨率下,4GB显存必然是一个隐患。当然,最终产品还未出炉,我们期待AMD可以尽可能的优化好这宝贵的4GB HBM显存,能够物尽其用。

当然,瑕不掩瑜,不可否认HBM是这几年来我们在PC硬件领域看到的最大胆、最具想象力的创新技术,正如过去一样,AMD一直走在技术最前沿的,用它难以捉摸的想象力实现各种引领业界前进。并且AMD一直坚持自由开放的理念,相信这个技术在未来将会推广到各个领域。至于市场方面的业绩,似乎AMD并不是把它放在第一位。无论如何,我们期待采用HBM的新产品出现。

FreeSync技术解析

游戏玩家需要一个稳定的环境,最怕见的情况就是卡顿,包括软件、硬件等各种因素引起的延迟和画面波动对游戏体验有着致命的影响。造成不良游戏体验的其中一个现象就是画面撕裂和卡顿。在高速游戏环境中,几十毫秒的顿挫都会带来恶劣的影响。关键时刻的技能施放、位置移动,一旦错过最佳时机后果不干设想。而画面撕裂给玩家带来极为恶劣的影响,最可怕的是,它并不是你的显卡或显示器不够好造成的。而仅仅是因为他们俩的工作步调不一致。或者说,如果没有好的方法来解决,你就算买再贵的硬件都没法解决。

造成这一问题的原因就是显示器与显卡工作步调的不一致,比如,当你的显示器刷新率是60Hz,而当显卡每秒输出帧数高于60时,由于输出帧率高于显示器频率,在原本应该显示一帧图像的单位时间内,却出现多余1帧的画面,画面就会出现撕裂。为了解决这个问题,过去的做法是使用传统的 V-Sync技术,既限制显卡工作的速率。但是,我们在3D游戏中的环境是时刻变化的,比如在一场游戏中平均帧率是60,有可能在游戏初期帧率达到了80,但是激烈交战时帧数只有30,那么如果设置了垂直同步V-Sync,当显卡输出帧率在低于60的时候,显示器依然处于等待完整一帧画面的机制,就要等待两倍的时间,那么这时画面就会出现卡顿。

简单的总结就是,当显卡性能高于显示器工作频率时,游戏画面会撕裂,低于的话会卡顿延迟。只有显卡工作不掉与显示器接近一致时,才能获得最完美的游戏效果。这个矛盾在以前没有太好的办法解决。

为此,AMD推出了FreeSync技术,这项技术可以通知显示器何时应该显示出完整的一帧画面,相当于让显示器的工作频率随着显卡输出的步调来进行,从而大大减少了卡顿和撕裂现象,给玩家尽可能流畅、稳定的游戏环境。

传统垂直同步技术的运作方式:当某一帧输出需要时间超过单位时间时,就需要等待两倍的时间。比如,游戏整体上平均一帧如果需要20ms,但是如果某一帧需要22ms,那么这一帧并不会在22ms后立即显示出来,而是需要40ms。而对于一般玩家来说,超过30ms的时间就已经可以明显感受到了。而AMD的FreeSync技术,可以让这原本渲染时间超过平均单位时间的一帧,以它真实完成渲染的时间刷新出来,让显示器跟随显卡的步调,从而完美解决撕裂的问题同时尽可能避免了卡顿。

AMD的FreeSync技术是一个开放标准,并且已经加入到DisplayPort的配置中,名为Adaptive Sync,AMD为其提供了开启选项和一个名称。使FreeSync成为一项更为更容易推广、普及的技术。正如其名,Free不仅意味着自由改变显示器工作频率,还象征着免费。与此同时,你还需要一台支持AMD FreeSync功能的显示器设备,这一模块成本极为低廉,支持这项技术的显示器售价并不会比没有的更高,等于完全是免费的福利。三星、LG、明基、优派、宏碁等厂商都已经推出了支持FreeSync的显示器,支持设备的阵容仍在不断扩张中。

AMD R9 Fury X显卡外观

此前已经在各方爆料中得知了Fury X显卡的外观,不过真正拿到手中时还是有些惊喜,这几代的旗舰显卡都是10-11英寸PCB的大卡,Fury X明显短小了很多,而且AMD这次改用了全新的外观设计,加入了很多迎合游戏玩家的设计,比如LED指示灯、logo灯等等。

Fury X显卡自身长度为19.8厘米(7.5寸PCB),水管部分全长40厘米,用的是塑胶软管,外面包裹了编织网,是酷冷至尊OEM的,而之前的R9 295X2显卡的水冷是Asetek代工的。AMD的Fury X显卡也是吸取了很多游戏玩家建议的,LED灯就是备受游戏玩家欢迎的设计,AMD现在也加入这个功能了。此外,信仰灯上面的小孔是双BIOS切换键,这跟R9 290X上是一样的,不过切换之后的两个BIOS编号、频率参数都是一样的,风扇转速最高都是66%,这跟R9 290X的两个核心BIOS有所不同。

//图:1、2、3、4

值得注意的是,Fury X的电源接口处还有8+1颗LED指示灯,处于ZeroCore待机时会亮绿灯,其他情况根据负载高低会呈现蓝色或者红色(旁边有跳线可以切换显示颜色)。Fury X在视频接口还是很激进的,只提供了三个DisplayPort及1个HDMI接口,直接把DVI接口省掉了,毕竟这个显卡主要为4K而生,DVI接口上不到这么高的分辨率。不过HDMI接口上,AMD还没有支持HDMI 2.0,依然是HDMI 1.4标准。此外,Fury X显卡通过DP 1.2 MST Hub最多可以支持6屏输出。

AMD的Fury X显卡使用了HBM显存,除了性能之外其最大优势就是高集成度,所以Fury X相比以往的旗舰卡有了完全不同的PCB设计,长度从之前的10.5寸降低到了7.5寸,真的是短小精悍,而且这跟当初NVIDIA在公版GTX 670上使用短PCB的感觉不同,后者因为功耗更低,电路不需要多复杂,所以PCB看上去有很空的感觉,而Fury X完全不同,AMD高端公版显卡的做工一直都很赞的。

性能对比

AMD的R9 390X显卡定位在3000元左右,这个价格卡在GTX 980与GTX 970之间,更接近GTX 980显卡一些。HIS R9 390X IceQX2是非公版,频率更高,虽然整体性能略低于GTX 980,不过差距比R9 290X与GTX 980已经缩小了,1080p下落后GTX 980显卡大约10%,从之前测过的数据来看,其实GTX 980的性能要比R9 290X显卡要高15-20%%,现在高频版的HIS R9 390X 8GB版已经把差距缩小到了10%左右,10%的差距对游戏体验来说并没有明显区别。

1080p下,Fury X与GTX 980显卡互有胜负,在3DMark、古墓丽影、巫师3等项目中占优,不过总体上性能领先大约是5%左右。与NVIDIA最新的Maxwell架构相比,AMD这两代的显卡最为人诟病的地方就是功耗偏高了,那么Fury X显卡的功耗又将如何呢?

待机时整机功耗67W跟R9 290X差不多,比GTX 980/980 Ti略高,不过Heaven 4.0中Fury X的整机功耗只有293W左右,比R9 290X的329W整机功耗低了很多,甚至比GTX 980 Ti的308W也要低。Furmark拷机时,Fury X显卡整机功耗达到了427W,比R9 290X及GTX 980 Ti都要高得多。

在AMD发布的全新R300系列显卡中,包括R9 390X在内的多数显卡依然是新瓶装旧酒,主打性价比,真正让AMD扬刀立威的只有Fury系列,它才是新核心的,而且用上了黑科技HBM显存。对于近两年没有新旗舰的AMD来说,用研发多年的HBM技术武装Fury X显卡,AMD这次是压了相当大的筹码的。

如何评价AMD新旗舰Fury X显卡性能?超越GTX 980及自家的R9 290X已经没什么悬念,对阵NVIDIA的GM200核心显卡,Fury X在1080p分辨率依然要落后10-15%,但4K分辨率下几乎追平了GTX 980 Ti,而整个Fury X显卡都有这样的表现——分辨率越高,性能优势越明显。看到这里,我们可以感慨下,如果Fury X配备的是8GB显存,也许结果还有更多不一样。

此外,R9 Fury X因为使用了水冷散热器,所以在温度及静音方面的表现非常强,最高61°C及1300RPM的转速保证了显卡凉又静,付出的代价只是安装比普通风冷显卡略麻烦一点。

至于功耗,R9 Fury X显卡虽然拷机功耗依然高于R9 290X及GTX 980 Ti,但后两者在Furmark中都大幅降频了,而Hevean 4.0这样的游戏负载中其整机功耗实际上比R9 290X和GTX 980 Ti要低一些的。

总之,R9 Fury X显卡的问世结束了AMD在旗舰级显卡上无力与NVIDIA显卡竞争的状态,虽然Fury X总体性能还是略输GTX 980 Ti一筹,但这次的差距已不是质差,相信AMD在驱动优化方面还有很多工作可以做的。

我们更不应该忽视的其实是AMD这次使用HBM显存在设计上带来的革命性变化——HBM除了高带宽,另一个优势就是高集成度,2.5D堆栈时封装节省了大量PCB面积,GPU+显存占用的空间从之前的90x110mm急剧减少到了55x55mm,面积只有原来的1/3,所以Fury X只需要使用7.5寸的PCB即可。

这还只是开始,目前AMD上市的只是Fury X这一款显卡,之后还会有Fury显卡以及更小的R9 Nano,再往上则有双芯的Fury X2,可以说虽然R300系列没什么给力新品,但Fury X家族可以衍生出多款产品,帮助AMD完善高端显卡的市场布局。□

猜你喜欢
功耗显示器架构
基于FPGA的RNN硬件加速架构
基于任务映射的暗硅芯片功耗预算方法
把显示器“穿”在身上
功能架构在电子电气架构开发中的应用和实践
一种新型点阵显示器的设计
感应式带电显示器抗干扰处理
LSN DCI EVPN VxLAN组网架构研究及实现
揭开GPU功耗的面纱
数字电路功耗的分析及优化
IGBT模型优化及其在Buck变换器中的功耗分析