连翔宇
旗舰级的RTX 4090显卡已经上市一个月了,由于市场的热捧和产能不足,一直处于缺货状态,加上它1万多的售价让不少想要升级硬件的玩家望而却步。这不,次旗舰显卡RTX 4080就来了,相同的架构,超越RTX 3090 Ti的性能相信会成为不少用户的新选择。
索泰作为NVIDIA的一线AIC品牌,非公版RTX 4080自然不会缺席,这次索泰GeForce RTX 4080 16GB天启OC显卡,这是第一款拥有5个散热风扇的RTX 4080,都说天启系列堆料猛,从这款显卡的散热上看确实如此,这也让笔者非常好奇它的实际表现,下面让我们来一探究竟。
RTX 4080,其采用的是AD103-300核心,TSMC 4N工艺制造,芯片面积为379 mm2,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,RTX 4080 RTX 4080标配9 728个CUDA,128个第三代RT Cores,512个第四代Tensor Cores,并且用上了16 GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
而目前RTX 4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC、40个TPC、80个SM以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX 4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX 4080 Ti。
再看看RTX 4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX 4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(2个内建5个TPC,1个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256 Bit。
但是RTX 4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX 4090同等规格,仅保留了2个NVENC编码器和2个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX 4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX 4080也有不错的表现。
索泰天启系列一直以豪华用料与高规格散热著称,接下来我们从外观看起,包装上延续了RTX 4090的风格,以天启系列的Logo作艺术化的延伸,神秘而有艺术感。
包装背面同样以天启Logo为纹理,并且包含产品的展示图和详细介绍以及采用的工艺等,可以看出索泰对这张次顶级显卡的重视,将目前自家最高规格的散热以及功能放在这张卡上。
在包装的右上角还专门介绍了索泰RTX 4080天启OC采用的技术,如:冰芯VC散热系统、S.E.P 2.0供电系统等。
解开“封印”后,除了有硕大的显卡本体,包装盒内还附赠了1个定制显卡支架,1根12VHPWR转3×8Pin的电源转接线,另有指南说明书,便捷安装。
索泰RTX 4080天启OC通体是银黑色的搭配,貌似想告诉我们:实力强劲,但也足够低调沉稳。银色的龙鳞装甲包围着启示之环,犹如骑士守护着皇冠。
都说RGB能提升200 %性能,但索泰似乎对自己的实力自信满满,从正面看只有中間的风扇采用了RGB灯效,灯光亮起后一起一伏的呼吸感也让人感到沉着冷静,当然这个启世之环也可以通过FireStorm软件自定义灯效。
单有炫酷的RGB灯效还不够,索泰给RTX 4080天启OC上的这3把风扇采用了仿生设计,3把110 mm的仿生盾鳞2.0风扇,在提升了扇叶面积的同时,还优化了曲率和鲨鱼麟装的仿生纹路,不仅减少了风噪,还提升了进风量、风压和风流。
来到显卡的背部,设计还是一脉相承,采用的是RTX 4090同款的天启之翼2.0设计,一体式的合金面板上搭载了2个小型散热风扇,和周围的翅膀纹路融为一体。一个负责吸风,一个负责吹风,立体全方位散热。
从这个“天启之翼”可以看到,索泰并不是舍弃了RGB,而是给用户跟多选择,开启RGB后如幻彩双翼,视觉效果拉满。
这2个风扇不仅能将散热死角全面覆盖,无线触点的设计也方便用户拆卸,这一点上索泰做得很人性化。其中一个小风扇压着核心的背部电容,在使用过程中对电容进行散热,达到更加均衡的散热效果。
翻到显卡顶部,突出的ZOTAC Logo灯牌推翻了我上面的结论:RGB是不可以舍弃的。这里同样可以使用FireStorm软件调节灯光效果,附近密密麻麻的散热鳍片为显卡排热做出不可缺失的贡献。
说到顶部,少不了的就是供电接口以及一部分其他细节,12VHPWR供电接口减少了电源线的占用,内部金属端子使用镀金材质,不仅做到抗氧化,还降低了阻抗,达到降低发热的效果,供电效果更加稳定。
旁边的小按钮是BIOS切换按钮,可以实现显卡一键超频,以高性能模式运行,也可以调节为寂静模式,优雅使用。如果不方便也可以在软件控制中心中切换。
调转视角到底部,金手指是常规的PCIe 4.0x16接口,提前打开主板的Resizable BAR功能,这样才能跑满带宽,完全发挥显卡性能。
另外底部同样有大面积的鳍片出风口,如此规格的散热配置压制这张RTX 4080可以说是绰绰有余了。
IO接口配备3个DP1.4a和1个HDMI 2.1a,接口数量可以满足多屏使用的环境,即使是8K输出也毫无压力。
显卡厚度也来到了3.5槽,带上背后2个小散热风扇,整张卡的厚度将近74 mm,这对一些比较小的机箱会是不小的挑战。
将索泰RTX 4080天启OC金属背板上的螺丝卸下,即可分离冰芯VC散热系统和PCB板。首先来看PCB板,想要完全取下PCB则还需要卸下金属背板上剩余的螺丝,从正面来看,索泰RTX 4080天启OC的PCB为类公版设计,从长度上看比上代RTX 3090 Ti还要再短一些,不过却实现了超越上代卡皇的性能,足见索泰设计能力之强。
PCB的背面相比正面简洁不少,大部分控制芯片都放在此处,要说这背面最显眼的当属核心后的电容,使用了2个导电聚合物钽电容(POSCAP),电气性能更强一些。
视角来到PCB的正中央,这里镶嵌着本次的主角———AD 103-300-A1核心,TSMC 4N工艺制造,内含9 728个CUDA核心,就是这颗小小的核心几乎全方位地碾压上代卡皇RTX 3090 Ti。
核心的四周是8颗GDDR6X显存,由美光与NVIDIA联合研制,型号为2PU47 D8BZF,单颗显存容量2 GB,8颗组成16 GB,显存位宽为256 Bit,速度达到了21 Gbps。
想要驱动这颗强劲的核心,供电系统自然不能差,索泰RTX 4080天启OC采用S.E.P2.0供电系统,供电规模堪称豪华,24+3相供电设计已经快追上自家的RTX 4090了,豪华配置为显卡带来更稳定高效的供电保障,助力显卡释放性能。每相供电均采用了独立的DrMos芯片,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55 A。
核心供电和显存供电均配有PWM供电控制芯片,安排在PCB背面,型号分别是:uP9512R、uP9529Q以及uS5650Q。其中uP9512R与uP9529Q共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。
由于索泰RTX 4080天启OC是双BIOS设计,因此在PCB上还可以看到2颗BIOS控制芯片,型号为IS25WP016,一颗位于正面一颗位于背面。
索泰RTX 4080天启OC用的是RTX 4090上同款的冰芯VC散热系统,需要将隐藏在风扇下的螺丝拆除才可分离散热风扇与整块散热器。整个散热系统包含散热风扇、鳍片散热器以及技术背板3个部分。
冰芯VC散热系统在设计之初就把规格拉满了,现在不仅仅可以给GPU散热了,在显存、电感、Mos管等地方都配有高系数的导热垫。GPU核心处也抹上了厚厚的硅脂,并且这代显卡上的显存紧贴真空腔均热板,可见GDDR6X显存超强性能带来的发热量也是巨大的。
除此之外,金属背板的显存和GPU核心位置依然贴了导热垫,可以从背板处导热,妥妥的旗舰配置散热。
整个散热器采用两段式设计,左右两侧均布满了厚重、加高的镀镍散热鳍片,搭配全新对流穿透散热设计,能够大大提升显卡散热效能。密密麻麻的散热鳍片下隐藏着9根冰脉2.0热管,贯穿整个散热系统,能够将前后的两段散热鳍片链接起来,将热量快速传导到散热鳍片,高效散热,让索泰RTX 4080天启OC随时保持冷静。
仅仅靠散热鳍片还不够,冰芯VC散热系统还需要主动散热装置,索泰RTX 4080天启OC上那5个散热风扇能够将散热鳍片上的热量快速导出外部。其中正面的3个110 mm仿生盾鳞2.0风扇采用双滚珠轴承设计,升级后的扇叶不仅兼顾风量,也更注重使用寿命。
背部的两把散热风扇看起来虽小,但无论是外观设计还是功能性丝毫不逊色于正面三把大风扇,它能够加速气流流动,进一步降低显卡温度,并且支持AI启停,高效散热的同时也不会带来巨大的噪音。
下面介绍一下测试平台,既然是高端显卡,那其他硬件也不能差。笔者用强硬件来测试,CPU用的是Intel i9-13900K,主板为ROG MAXIMUS Z790 HERO,内存插满,直接上金士顿的64 GB DDR5-6000,这样的配置才能让展现这张显卡的性能。
RTX 4090已经能跑8K游戏了,作为次旗舰的RTX 4080流畅4K电竞应该不过分,所以为这张索泰RTX 4080天启OC配备了4K显示器的天花板———爱攻&保时捷联名设计的AGON PD32M,4K@144Hz高刷,还有miniLED背光加持,从里到外都散发着一种高级感,只有这样的显示器才能配得上索泰RTX 4080天启OC这张显卡。
开始测试前,先运行GPU-Z,既验证显卡能否正常驱动,也能够详细了解索泰RTX 4080天启OC的信息,从信息图上可以看到这款显卡的基准频率为2 205 MHz,Boost频率可以达到2 565 MHz,高于FE公版的2 505 MHz,并且可以看到此时主板的Resizable BAR功能已开启,显卡能够做大限度的发挥出其全部性能。
除此之外,在GPU-Z中还可以了解到索泰RTX 4080天启OC的温控和功耗策略,GPU-Z显示这款显卡的TGP设定为320 W,与公版RTX 4080保持一致,允许的最高功耗限制为450 W;而在温控上,索泰RTX 4080天启OC最高可至88℃,除了超频,我想正常使用以冰芯VC散热系统的实力是不可能撞温度墙的。
首先进行理论性能测试,这里加入了上代的卡皇RTX 3090 Ti进行对比,从而能够更清楚的看到RTX 4080的性能提升。
在3DMark理论测试中,以DX11为代表的FireStrike系列测试里,索泰RTX 4080天启OC表现亮眼,在4K分辨率下能够领先RTX 3080 Ti达38 %以上。在以DX12為代表的Time Spy测试中,索泰RTX 4080天启OC也可以甩出前代几条街,得分高达,即使对比RTX 3090 Ti也不虚,总的来说这代显卡,4K分辨率对其几乎没有压力。
NVIDIA在20系显卡上推出光追后,同时给RTX系列显卡加上了DLSS功能。索泰RTX 4080天启OC在这方面的表现依旧强势,RTX 4080的光追性能在这一代确实得到了很大提升,RTX 3090 Ti在Port Royal中得分14 000,而索泰RTX 4080天启OC得分17 975,性能领先30 %以上,可见40系显卡对光追特效的优化已经提升到了一个新的层面。
在AIDA64 GPGPU理论性能测试中,索泰RTX 4080天启OC也展现出高端显卡应有的实力,无论是跟前代RTX 3080 Ti比还是跟RTX 3090 Ti比,它的性能都称得上是碾压级别的,领先幅度达到了40 %以上,单是显存复制一项,索泰RTX 4080天启OC的性能就是RTX 3080 Ti的3倍左右。
理论性能上RTX 4080有着巨幅提升,大部分玩家更关心的游戏性能又如何,我们选用多款游戏在不同分辨率下实测这款显卡的性能表现。
作为高端显卡,1 080 P可以说是毫无难度,上一代RTX 3080 Ti的性能已经能够流畅游玩1 080 P分辨率下的3A大作了,更不用说这一代了,像《古墓丽影:暗影》优化好的游戏,甚至突破300 FPS,已经达到了不少电竞网游的水平了。
2K分辨率索泰RTX 4080天启OC也丝毫不虚,测试的游戏基本都能够达到144 FPS上,整体游戏性能也领先前代RTX 3080 Ti近35%,看来要上点强度才能看出这款显卡的真正实力。
分辨率的提升索泰RTX 4080天启OC优势愈发明显,素有显卡杀手之称的《赛博朋克2077》在RTX 3080 Ti上仅是接近60 FPS,而索泰RTX 4080天启OC则是做到了90 FPS,降点特效则可以做到144 FPS了,畅玩4K@144Hz不再是梦。
8K分辨率对RTX 4080就有一些压力了,不过部分游戏依旧能够达到60 FPS以上,像《荒野大镖客2》,索泰RTX 4080天启OC跑出了67 FPS的成绩,8K游戏这在以前几乎是不敢想的存在。
总的来说,索泰RTX 4080天启OC在2K、4K分辨率下相比前代RTX 3080 Ti有着明显优势,不少以前只可以勉强60 FPS运行的游戏,在这代显卡上已经能够流畅运行了,搭配DLSS后,更是能够上到100 FPS,想要4K@144Hz流畅运行只需要稍微降低一些特效就能够实现,至于8K则需要游戏厂商的优化才有可能实现了。
DLSS自推出以来就给玩家带来了不少惊喜,有了DLSS这个黑科技,可以在不影响画面质量的情况下提升游戏性能。2022年的RTX 40系上的DLSS也更新至3.0版本,新增帧生成和NVIDIA Reflex技术,实现游戏性能的翻倍提升,我们选择了多款软件和游戏对这项技术进行实测,验证其究竟能否实现在发布会上所说的那种“性能翻倍”。
自打RTX 4090发布之后,3DMark就新增了DLSS 3性能测试项目,在该测试项目中,索泰RTX 4080天启OC展现出了DLSS 3强大的黑科技,4K分辨率下,开关DLSS 3性能差距能够达到3倍以上,8K分辨率下不开DLSS,即使是RTX 4090也会卡成PPT,而现在索泰RTX 4080天启OC在开启DLSS 3后,8K分辨率下可以直接70 FPS流畅运行,看来RTX 4080有望8K游戏。
理论性能索泰RTX 4080天启OC表现不错,实际表现中,我们选用了目前已经支持DLSS 3的《瘟疫传说:安魂曲》进行测试。在不开启DLSS时,索泰RTX 4080天启OC在4K分辨率下开启DLSS 2已经可以流畅运行了,此时的帧数已经到达119 FPS,而开启DLSS 3后,性能提升明显,游戏帧数也来到了157 FPS,所以说有索泰RTX4080天启OC,4K@144Hz不再是梦,配合AGON PD32M显示器,强悍的性能与丝滑的显示带来前所未有的体验。
经过实测了多款游戏,从结果来看,在2K分辨率下,索泰RTX 4080天启OC的性能可以说是绰绰有余,只开启DLSS 2就已经全面超越前代的RTX 3080 Ti了,开启DLSS 3后性能更是有了长足的进步,可以说2K分辨率下大部分游戏都可以240 Hz高刷运行。
4K分辨率更是索泰RTX 4080天启OC的主场,有了DLSS 3黑科技的加持后,不少游戏表现相比前代卡皇RTX 3090 Ti有着近乎翻倍的提升。大部分游戏依旧可以满足4K@144Hz的电竞需求。
在上面的3DMark中看到索泰RTX 4080天启OC开关DLSS 3前后性能差距近70 %,因此也测试了这张显卡在8K分辨率下的游戏表现,测完后不得不说,16 GB的显存卡刚刚好,在8K游戏下,RTX 4080存在爆显存的问题,只有少部分游戏或项目能够60 FPS运行,因此想要靠这张显卡流畅8K@60 Hz游戏还需要后续游戏厂商的优化才行。
最后也测试了Unreal Engine 5引擎制作的Enemies DEMO,UE5作为全新的游戏开发引擎,对显卡的压力自是不小,而索泰RTX 4080天启OC在DLSS 3的加持下展现出了超强的实力,4K分辨率下可达77 AVG/66 1% FPS/55 ms的水平,而关闭DLSS3后仅有22 AVG/17 1% FPS/195 ms,几乎3倍以上的游戏流畅度提升。
游戏流畅度的提升究竟会不会对画质造成影响可以从视频中可以看出,即使开启DLSS 3后,从肉眼看来,开关前后的画质几乎没有区别,并且因为DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰。
高端显卡在游戏方面确实很顶,不过索泰RTX 4080天啟OC的16 GB大显存在生产力方面也有用武之地。选择Puget Bench、PCMark 10这2款常见的测试软件,来测试这款显卡在日常办公、视频内容生产等方面的性能表现。
从测试结果可以看到在PCMark10中,索泰RTX 4080天启OC在数位内容创作项目上得分,相比上代提升明显,在后续的Adobe软件测试中也印证了这一点,不过由于Adobe软件对显卡性能不敏感,索泰RTX 4080天启OC的提升更多是16 GB大显存对复杂项目的处理,大显存的优势在于运行复杂特效时不容易爆显存,并且还有一定的性能提升。
而在另一款著名剪辑软件达芬奇的测试中,由于索泰RTX 4080天启OC自带AV1编解码技术,在性能上领先RTX 3080 Ti不少,整体性能能够提升16 %,目前更推荐视频后期工作者使用达芬奇,毕竟支持AV1可以白嫖更多的性能提升。
索泰RTX 4080天启OC真正强悍的地方是在建模、渲染、工业设计等方面,新架构和大显存双管齐下,单是在Blender渲染软件中,索泰RTX 4080天启OC相比前代RTX 3080 Ti就有50 %以上的提升,面对RTX 3090 Ti也丝毫不虚,性能领先45 %。
使用工业软件的用户这次也可以考虑升级显卡了,在SPECviewperf 2020集成的8款工业软件测试中,索泰RTX 4080天启OC的表现依旧喜人,整体性能领先RTX 3080 Ti有35%左右,渲染时可以缩短近1/3的时间。
从事视频剪辑后期的用户在更换索泰RTX 4080天启OC后不仅可以提升性能,还可以提高转码效率。RTX 40系显卡上升级了双NVENC编码器,并且支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。
我们也对索泰RTX 4080天启OC上的编码器进行测试,使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测索泰RTX 4080天启OC的编解码实力与旗舰级的RTX 4090相当,同一段素材下,AV1编码相比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,索泰RTX 4080天启OC的效率比前代快62 %以上。
AV1编码不仅编码时间短,在占用空间上也颇有优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码平均能够降低25 %的占用空间。
有不少用户担心,那编码速度快又占用小,那会不会降画质,截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现。
之前测试索泰RTX 4090天启OC时采用的是五风扇的冰芯VC散热系统,它的散热表现有目共睹,现在索泰RTX 4080天启OC用上了同款散热器,这也让笔者对其散热效能充满好奇,下面我们一探究竟。
使用Furmark单烤15 min后,此时显卡占用率99 %,索泰RTX 4080天启OC的GPU频率稳定在2 500 MHz上下,GPU核心温度为56℃,相比公版的RTX 4080还要凉快,得益于显存直贴均热板的设计,即使是GDDR6X这种发热大户,此时的温度也仅有54℃而已。
别看索泰RTX 4080天启OC的散热系统配备了5个散热风扇,实际上它的噪音表现良好,单烤15 min后,显卡功耗最高为320 W,风扇转速也仅有31 %,几乎感受不到风扇噪音,综合能耗比来看,这张显卡对比前代卡皇RTX 3090 Ti可以说是全面超越。
既然是高端显卡,那就少不了超频测试,更何况索泰RTX 4080天启OC还用的是RTX?4090同款散热。我们使用索泰的FireStorm控制中心对显卡进行超频,将GPU核心和GDDR6X显存同时超频,在FireStorm中将索泰RTX 4090天启OC的BOOST频率提升到2 755 MHz,显存也直接超频1 000 MHz,运行Port Royal测试项目。
此时显卡的核心与显存都能够在高频状态下稳定运行,并且跑出了30 142分,相比默频状态下的28 330分提升7 %左右,提升幅度还算不错了,不过这还不是这款显卡的极限,有兴趣的玩家还可以更激进的超频。
不得不说这次RTX 40系显卡真的诚意满满,全新的Ada lovece架构大大提升了执行效率和光追性能,DLSS 3的加入让8K游戏成为可能,超大显存和算力提升让专业性能也有质的飞跃,再加上TSMC 4N的定制工艺与硕大的散热器,40系显卡的能耗比更上一层楼,对比前代可以说是全面超越。
GeForce RTX 4080天启OC的颜值着实给我留下了深刻的印象,银鳞装甲与黑色合金相互碰撞,启世之环与天启之翼交相辉映,既有超能机甲的冷酷又有RGB燈效的动感,可以说这款显卡就是为游戏玩家量身定制的。
颜值高只是索泰GeForce RTX 4080天启OC的优点之一,它的性能释放也带给我们不小的惊喜,实测下来,这款显卡不仅理论性能上有着超越同级的表现,在极限超频状态下凭借5风扇的设计,无惧发热,核心直上3 000 MHz,显存更是直接超频1 000 MHz以上,完美展现了AD103核心的真正性能。
总之实测下来,如果你对游戏体验或生产力效率有着较高的追求,那索泰GeForce RTX 4080天启OC无可挑剔,前卫的外观设计、过硬的性能表现都是你无法拒绝它的理由,感兴趣的朋友千万不要错过。
Turing和Ampere上两代架构核心均以人物来命名,前者是计算机科学之父———艾伦·麦席森·图灵;后者则是“电学中的牛顿”———安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,百度一下果然,这是人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛(PS:她的父亲是《唐璜》的作者,诗人拜伦)。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RT Cores与第四代Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
Ada Lovelace架构中最大的亮点之一就是全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而二者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4080拥有76个SM,9 728个CUDA核心,那也就应该明白82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了2倍多。
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4080显卡中就实现了97 MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX 4080都是64 MB二级缓存,相比RTX 3080 Ti可以说是质的飞跃。
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代RT Cores与第四代Tensor Cores身上。
RT Cores用于光线追踪加速,第三代RT Cores的有效光线追踪计算能力达到191 TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RT Cores支持边界交叉测试(BoxIntersectionTesting)和三角形交叉测试(TriangleIntersection Testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RT Cores增加了2个重要硬件单元Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。OpacityMicromap Engine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态三角形。根据Alpha通道的不透明,透明与未知等3个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里需要1.7萬个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。
Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RT Cores与第四代Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。
第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops的张量处理性能,超过上一代的5倍。
说第四代Tensor Cores太硬核你不会知道是什么,提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定會知道,这一次Ada Lovelace架构就是支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了3项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900系列以后的显卡都用使用。
想实现DLSS帧生成可不简单,需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS(TOPS),比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。