AMD呕心沥血研发的”推土机“模块化架构让玩家产生了极大的期待,实际表现不尽如人意。
AMD新一代Zen架构的处理器已经被提上了日程,为其苦苦支撑多年的推土机架构即将退出历史舞台,虽然在推土机架构唱主角的这几年里,AMD在和Intel的竞争中节节败退,终究还算是守住了江山一隅。回过头来再好好审视AMD推土机架构,其实这款产品的规格也并非像它在市场上的表现那么不堪,只能说两家公司的规模和技术研发实力差距实在太大,推土机的失败也算是非战之罪。
作为一家营收不足Intel公司1/10的“小公司”,AMD公司的斗志以及创新精神让人敬佩,在HT总线、DDR内存、多核处理器等技术上敢为人先,而在64位X86指令集上更是让Intel低头认输,直到现在这个胜利都是AMD最为骄傲的成绩之一。因此在K10架构之后,AMD呕心沥血研发的”推土机“模块化架构让玩家产生了极大的期待。但是,最后的结果大家现在都知道了,推土机架构处理器就像是跳水运动员一样,起点很完美,但入水时浪花太大而扑街,实际表现不尽如人意。这次高开低走也让AMD心灰意冷,推土机架构在桌面市场小幅升级到第二代Piledriver打桩机架构之后就草草结束FX处理器更新,后面两代架构只在Kaveri及Carrizo两代APU上出现,桌面版到现在为止差不多5年没升级了。
从2011年FX-8150发布到2015年Carrizo APU问世,AMD的模块化架构一共出了Bulldozer推土机、Piledriver打桩机、Steamroller压路机及Excavator挖掘机四代,其中前两代用于FX及APU处理器,2012年之后AMD就不再升级FX系列的架构了(产品型号倒是有升级),Steamroller压路机及Excavator挖掘机只有APU上才有用,制程工艺也只从32nm升级到28nm,而Intel在这几年中一直升级了SNB、IVB、Haswell、Broadwell及Skylake等处理器,制程工艺也从32nm一路升级到22nm、14nm及最新的14nm Plus。
今天我们来回顾下AMD模块化架构6年来走过的路,无论大家对它以往的评价如何,现在都不重要了,因为我们都知道它已经是过去时了,AMD即将在第一季度推出Ryzen处理器,全新的Zen架构、14nm LPP工艺以及AM4平台使得Ryzen更有吸引力,它身上也没了“推土机”架构的影子,从内核到缓存都重新设计了。
Bulldozer推土机
AMD推的第一代模块化架构就是Bulldozer推土机,以至于“推土机”都成了AMD整个模块化架构的代名词。在推土机问世之时,其架构确实有很多革命之处,包括全新的SSE5指令集、模块化多核、弹性浮点单元等设计有其独到之处,也有让人耳目一新的感觉。
关于推土机的架构设计在这里就不再赘述了,当时AMD对多核多线程的设计走的是物理多核,不同于传统的SMT同步多线程,推土机的模块化多核被称为CMT物理多核,其设计意图就是希望通过2个整数单元、1个共享浮点单元解决实际使用中整数多于浮点的过程,理论上这种设计要比SMT多线程更有效率。
推土机架构产品中,旗舰型号是FX-8150,号称首款桌面8核处理器,频率3.6-4.2GHz,支持DDR3-1866,8MB L3缓存,规格比Intel當年的SNB旗舰Core i7-2600K还要高,只不过125W TDP功耗高于后者的95W,毕竟核心数比SNB还是多了一倍。但是在最终的性能表现上,推土机并没有实现AMD的期待——2011年早些时候Intel推出了SNB处理器,在与SNB的对比中8核推土机除了在多线程上凭借核心多一倍略有优势之外,单线程性能上被SNB处理器完胜,在延迟、内存带宽等方面也不如Intel处理器。更重要的是,AMD的推土机使用的是GlobalFoundries的32nm SOI工艺,虽然同期Intel SNB处理器也是32nm工艺,但8核推土机核心面积高达315mm2,晶体管数量才12亿,Intel 4核SNB处理器核心面积216mm2,晶体管数量11.6亿,而且后者还是包含GPU核心在内的。
最终的结果就是8核推土机架构在技不如人的情况下,发热、功耗控制更是不如SNB处理器,而GF的32nm工艺产能、良率当时也不给力,多重因素制约下,推土机首发表现很难让市场认可,消费者并不买账,唯一值得“炫耀”的就是AMD FX-8150处理器价格只要200美元左右,比Intel 4核Core i7便宜50%左右,性价比是AMD仅存的优势了。
Piledriver打桩机
第一代模块化架构推土机并没有一鸣惊人,AMD在第二代模块化架构“Piledriver”中对推土机架构做了修补,2012年10月份正式推出了Vishera平台,AMD在此基础上不仅推出了FX-8150的继任者FX-8350,还衍生出世界首款5GHz处理器FX-9590,还有TDP降至95W的FX-8370E/8320E处理器。
相比第一代的Bulldorzer架构,Piledriver打桩机硬件单元变化不大,主要提升了一倍的L1 TLB单元、新增HW Divider硬件分配器、改善了S/L操作效率、提升了L2缓存效率及预测精度、优化了整数及浮点单元调度,增加了FMA4、BMI、CVT16、TBM等指令,整体上是对推土机架构小修小补,目的是提高架构效率,降低能耗。从AMD资料来看,Piledriver相比Bulldozer架构减少了10%的动态功耗,同样的电压下大幅提升了CPU频率空间,以FX-8350为例,同样是在125W TDP下,其基础频率从FX-8150的3.6GHz增加到了4GHz,加速频率4.2GHz。
Piledriver架构效率的提升使得AMD在扩展新品上有了更多灵活性,TDP增至220W的情况下,他们推出了号称世界首款5GHz频率的FX-9590处理器,而同样是8核配置下又推出了TDP降至95W的FX-8370E/8320E处理器。遗憾的是,AMD这两波产品都没有获得市场认可,消费者并不买账,AMD后面索性不再折腾FX系列处理器了,从Piledriver架构之后事实上放弃了FX产品线,新品升级都没了。
除了略显悲催的FX系列处理器之外,Piledriver还用在了Trinity APU上,第一代Llano APU因为时间关系没赶上推土机架构,使用的还是K10架构CPU核心,Trinity直接上了第二代模块化架构。用于APU的Piledriver架构砍掉了L3缓存,核心数也从8核降至4核,还增加了GPU核心,TDP功耗也降至100W以内。
AMD的第二代模块架构Piledriver改善了推土机架构的效率、功耗,但并没有根本性变化,并不足以扭转AMD的困境,相反Intel当年推出了22nm工艺的IVB处理器,而且用上了FinFET工艺,GlobalFoundries的32nm SOI工艺即便成熟起来了,AMD跟Intel之间的性能、功耗差距实际上越来越大了。
Steamroller压路机
Piledriver在FX系列处理器上的失利让AMD放弃了高性能平台,高端市场已经无力再跟Intel对干,8核打4核、定价更低的情况下依然无法获得玩家青睐,AMD第三代模块化架构Steamroller索性只用在了Kaveri APU上。
早前AMD官方路线图中表示Piledriver的重点是优化效率,Steamroller才被视作性能增强版,发布之前官方及小道消息都在强调Steamroller架构性能有明显提升,比前代提升至少30%,甚至可以对标Intel的Haswell架构,这才是模块化架构本来应该有的样子,之前的架构名不副实。Kaveri的最终成品是我们之前已经熟悉的A10-7850K及后续衍生出来的A10-7870K等,其CPU使用了4个Steamroller核心,AMD增加了L1数据缓存到96KB,整数单元拥有独立的解码单元,分支预测更有效率,增强了指令的数据预取性能,核心思路还是提高单核执行能力,推动每瓦性能比进一步提升。具体到产品上来看,Kaveri APU除了CPU、GPU架构升级之外,内存频率也提升到DDR3-2133MHz,支持了PCI-E 3.0,而且制程工艺也从之前的32nm SOI升级到了28nm SHP,AMD从这一代节点开始放弃SOI工艺,而28nm虽然也不是最适合CPU的高性能工艺,但AMD已经顾不了这么多了,现在的重点是APU产品线,FX系列已经不闻不问了。Kaveri在AMD APU产品线表现算是很不错的了,CPU、GPU架构及工艺升级使之具备更好的性能、功耗表现,虽然CPU性能依然不能跟Intel同代相提并论,但凭借GPU的优势,Kaveri战战Core i3或者部分Core i5处理器还是可以的,能满足一般家庭使用。
不过AMD最大的问题还是出在自己身上,Kaveri自身进度一拖再拖,发布时间从2013年推到了2014年初,真正铺货时间更晚,而后续产品又出现了脱节,导致了AMD在2015年又用Kaveri Refresh硬撑一年,这就到了Carrizo一代了。
Excavator挖掘机
时间到了2015年,AMD在台北电脑展上正式发布了Carrizo APU,相比Kaveri升级到了第四代模块化架构Excavator挖掘机,制程工艺还是28nm SHP不变,但这一次AMD继续挖掘工艺潜力,在核心面积从245mm2仅仅增加到250mm2的情况下提高了晶体管密度,31亿晶体管要比Kaveri APU的24亿多了29%。
在Excavator架构上,AMD的重点还是继续优化效率,降低功耗,从Steamroller压路机的高性能库转向高密度库设计,换来的好处就是同样的28nm工艺下,CPU内核面积可以减少23%,功耗更低,自适应电压技术的加入减少了10%的电压波动,泄露减少了18%,同样的功率下频率可提升10%,或者同样的频率下减少20%的功耗。
另一方面,Excavator架构还增加了新技术、新规范支持,支持AVX2指令集,还有DDR4内存,其中Carrizo桌面版中的A12-9800频率从之前的3.7-4.0GHz提升到了3.8-4.2GHz,TDP功耗反而從95W降低到了65W。
可惜的是,Carrizo的Excavator架构虽然日趋成熟,但AMD在进度上一直不尽如人意,Carrizo 2015年推出了移动版,桌面版本该稍后,但还是各种延期,直到2016年9月份才算是正式发布桌面版,支持DDR4和AM4平台还是挺有新意的,但是AMD的AM4平台又因为Zen处理器延期,Carrizo桌面版发布了也没啥存在感,直到现在你也无法在零售渠道买到A12-9800处理器,更没有AM4平台主板可用。考虑到Ryzen处理器即将在Q1季度问世,恐怕AM4平台解决了,大家对Carrizo桌面版APU也没啥兴趣了,因为Ryzen处理器更值得期待。
总结
从Bulldozer推土机开始,AMD的模块化多核架构先后衍生出Piledriver打桩机、Steamroller压路机和Excavator挖掘机四代,制程工艺从32nm SOI升级到28nm SHP,功耗、发热及性能也越来越成熟。但是回头来看,AMD模块多核的理念最终是镜中花水中月,并没有如最初期待的那样对X86架构进行革命,反倒是让AMD在这5年中彻底败走高性能处理器市场。AMD的模块化架构失利有多方面因素,制程工艺上AMD还要受到GlobalFoundries的掣肘,后者在32nm SOI、28nm及FinFET工艺上磕磕绊绊不断,直到全盘使用三星的14nm FinFET工艺之后才算稳定下来。
不过AMD自身原因才是根源,四代模块架构即便性能打不过Intel,但也不至于混到这般下场,公平地说推土机等架构在多线程性能上还是值得一战的,但AMD各种进度延期导致它们并不能在合适的机会问世。同样拖延很久的Zen架构很快就要来了,AMD完全放弃了推土机架构中的物理多核思路,重新回归SMT多线程,CPU内核、缓存系统也重新设计,模块多核已经没多少存在感了。