收购ATI之后,以显示芯片和处理器为主要产品的AMD并未迎来预期中的振兴;相反,长年在两线与英特尔和英伟达这样的重量级对手作战,使得AMD疲态尽显。在PC市场逐渐萎缩、移动设备强势兴起的大背景下,英特尔推出了Atom平台、超极本等一系列应对手段;英伟达也将Tegra系列ARM处理器和Tesla计算卡等新产品投入市场。而AMD的反应则略显迟钝,甚至还遇到了制程提升的巨大障碍,以至于CHIP关注PC技术最新进展的“前沿技术”这一栏目很长一段时间都没有AMD的技术专题了。
不在沉默中爆发,就在沉默中灭亡。连年亏损的AMD已经没有继续犯错误或者停滞不前的机会了。进入2013年以来,AMD接连推出了一系列新品,并且明确了今后针对低能耗、高性能以及特殊处理器产品的发展策略。AMD希望能够藉由这一系列策略,扭转长期亏损的局面,并在未来的竞争中抢得先机。从这些产品的定位来看,AMD准确地抓住了自己的特长——强大的GPU计算能力、异构计算架构和建立在这些基础上的各类应用优势,正为它描绘出宏伟的复兴蓝图。
AMD重组求生
2006年完成对ATI的收购可谓是AMD最为风光的一刻,但此后AMD似乎逐渐陷入了困境。在全球金融危机和PC市场萎缩的双重影响下,原本以CPU和显示芯片为主要业务的AMD受到了较大冲击,继2008年分拆制造业务之后,AMD又相继爆出高管跳槽、亏损增加乃至将被收购的传闻。逆境之下,从 2011年年底开始,AMD踏上了艰难的转型之路,包括大规模的裁员、重组、出售和并购。
传统的PC市场已经不再为AMD所看好,它的老对手英特尔也持同样的态度。早在数年之前,英特尔就已经致力于拓展Atom处理器、SSD等新兴业务。不过,向英特尔学习并不足以使AMD踏上复兴之路:在AMD的新计划中,传统业务——处理器和显示芯片部分被精简以节约成本,而AMD更为看好的业务——ARM架构处理器、APU、图形游戏设备等则获得了更为重要的地位。在大规模裁员的同时,AMD也在这些方面进行了相应的加强。比如在2013年5月份宣告成立的半定制业务部门(Semi-Custom Business Unit,SCBU),它的目标是基于AMD在微处理器、图形核心、多媒体等领域丰富的知识产权和技术为客户定制开发独一无二的专属方案,涵盖范围则包括游戏、机顶盒、智能电视、PC、平板电脑、服务器、高性能计算、基础架构应用等等。索尼和微软就是该部门的首批客户,它们的下一代游戏机PS4和Xbox One所用的处理器都是与AMD共同开发的。尽管定制芯片的销售额可能并不很高,但对于困境中的AMD而言,也是相当划算的一笔买卖。据称索尼和微软为了新游戏机的处理器共向AMD支付了近2亿美元。预计到2013年年底,AMD将有20%的业务来自半定制芯片。AMD则期望这些新兴业务部门的营收能够在2014年占到公司总营收的50%左右,而传统的CPU和GPU则由目前的85%下降到50%。
异构计算的救赎
在APU处理器推出两年之后,AMD的努力似乎得到了丰厚的回报。目前,APU已经在游戏机处理器和服务器领域开花结果,而在新兴的平板电脑和超便携/混合笔记本电脑领域,APU也有望获得一定份额。
游戏机APU唯我独尊
尽管AMD近年来在PC处理器领域挑战英特尔的努力遭受了多次失败,但在家用游戏机这个特殊的战场上,它无疑是个成功者。2013年年初,多家媒体先后报道了AMD获得3大游戏机厂商索尼、微软和任天堂的下一代游戏机处理器的定制合同,这是近年来AMD所获得的最辉煌胜利。
为何AMD能够击败IBM和英伟达等竞争对手获得游戏机企业的青睐呢?或许AMD多年整合CPU和GPU的经验起到了决定作用。AMD的老对手英伟达曾经声称,索尼愿意付出的钱“太少”,它们觉得不值得做这笔买卖;但开发这样高整合度和高性能的游戏机处理器,英伟达的确缺乏足够的经验。盘点3大厂商的上一代产品,索尼的PS3采用的是Cell处理器搭配英伟达显示核心,微软的Xbox 360和任天堂的Wii都采用IBM的Power PC搭配AMD显示核心。很显然AMD已经在游戏机领域积累了相当多的经验,加上英伟达并不生产高性能CPU,英特尔无意这一领域,IBM则不可能去搞图形处理器,新一代游戏机处理器最后花落AMD家也就不那么令人意外了。
当然,AMD在这一领域也投入了相当大的精力。尽管目前索尼PS4、微软Xbox One和任天堂Wii U处理器的具体规格并未全部曝光,但一些媒体已经给出了大致的轮廓:它们都是基于AMD的APU解决方案,其中PS4和Xbox One的APU整合了8个“美洲虎”内核组成CPU部分,GPU部分则为个数不等的GCN渲染架构处理单元。以索尼PS4的APU为例,它拥有18组共1 152个流处理器,浮点计算性能为1.84TFlops,并搭配多通道256bit 8GB GDDR5统一显存/内存。得益于AMD和索尼共同开发的技术,GPU数据可以通过一条带宽约20GB/s的特殊总线直接写入系统内存,无需经过一级、二级缓存,简化了CPU、GPU之间的数据同步步骤。此外,PS4 APU在缓存段标记中增加了一个“易变位”(volatile bit),从而令GPU的二级缓存可以更高效地执行图形操作和计算操作。为了更好地满足异步计算的需求,索尼还将计算指令扩展为64路(GCN架构仅支持一路图形指令和两路计算指令)。微软Xbox One的CPU部分与PS4大致相当,但流处理器减少为768个。AMD声称这些芯片年产量可以达到千万枚以上,完全能够满足游戏机厂商的需求。
服务器APU小试牛刀
AMD看好的另一个领域是服务器市场,这一领域利润足够丰厚,而且AMD也曾经交出过不错的成绩。不过,服务器市场的竞争压力也是空前的:除了英特尔和AMD基于x86架构的传统服务器芯片之外,还有英特尔同样基于x86架构的Atom处理器以及虎视眈眈的ARM架构和POWER架构处理器芯片。
根据业界的认识,传统的x86芯片能耗较高,但在运行数据库、分析计算等处理大量数据的任务时速度更快;而基于ARM和Atom这类“小核心”的服务器芯片则在搜索引擎和社交网络应用方面具有更高的“费效”比。在前者的市场上,AMD和英特尔的竞争依然在上演着,而后者所代表的“微服务器”则是一个新兴的市场,无论x86处理器还是ARM处理器都拥有机会。
英特尔方面推出的解决方案是高低并进。性能较低但同时能耗也低的Atom S系列处理器S1200已经在2012年年底发布,2013年还会推出下一代基于Silvermont内核和22nm工艺的Avaton核心Atom处理器。性能更高一点的还有基于主流的Core微架构、低能耗的Xeon E3系列服务器芯片。前者在轻量级应用运算中有优势,后者则在增强计算的应用中表现更好。由于x86架构已经用于服务器多年,因此在集成和应用等方面不会有太多障碍。
AMD方面针对微服务器则推出了基于APU的产品,它的官方型号为Opteron X2150,代号为“Kyoto”(京都), TDP为11W~22W。Kyoto处理器的CPU部分是4个“美洲虎”内核,其性能与英特尔的下一代Silvermont架构Atom在伯仲之间,运行频率最高可达1.9GHz。它的GPU部分则为128个Radeon HD 8000流处理器,运行频率最高可到600MHz。此外,Opteron X2150还有一个屏蔽GPU的CPU版本X1150。AMD方面声称,Kyoto是“密度最高、能效最好”的小核心x86服务器产品。与英特尔的产品Atom S1200相比,Opteron X2150在规格和性能上都显得更强。
在Kyoto处理器之后,APU将会向更高性能的服务器处理器市场进军。2014年,AMD将会发布“Berlin”(柏林)处理器,它拥有4个“压路机”CPU内核,GPU部分则是基于HSA异构计算架构的Radeon流处理器(可能基于下一代显示核心火山岛)。Berlin处理器能够支持CPU和GPU的统一内存编址和访问,可实现更高的性能,它预计将取代目前的Opteron X3300系列处理器。
移动/桌面APU任重道远
平板电脑和能够触控操作的混合型笔记本电脑——“变形本”的处理器也是AMD试图重点发展的领域,但目前在这一领域的x86处理器中,英特尔旗下的低功耗版Core和Atom处理器占据着相当大的优势。不过,AMD巧妙地瞄准了Core和Atom之间的市场,推出了相应的APU产品。
2013年5月,AMD发布了Kabini与Temash两款APU,它们是“山猫”处理器的改进款,都基于最新的“美洲虎”CPU内核,但搭载的GCN GPU运行频率有所区别。前者的定位是“主流经典APU平台”,瞄准入门级笔记本/混合本电脑市场。后者的定位是“至尊移动APU平台”,面向13英寸以下的入门笔记本、混合本和平板电脑市场。当然,二者主要强调的特点都是卓越的图形性能:Kabini的图形性能号称“同类产品最佳”;而Temash则宣称图形性能为“竞品的5倍”,能够让平板电脑运行PC游戏。不过,尽管厂商对这两款产品反响较为热烈,但它们能否成功也要看市场的反应——毕竟大部分用户在这类平台上只会运行“愤怒的小鸟”或是“植物大战僵尸”之类的通用游戏,而非3D游戏大作。此外,英特尔下一代Atom 处理器——Bay Trail在1.46GHz下的性能已经超过上一代产品50%,如果运行在2.4GHz的高频下,达到或接近Kabini,超过Temash的性能也并非不可能。另外它的TDP将会低于5W,而A6-1450(Temash)和A5-5000(Kabini)的 TDP分别为8W和15W。
更为高端的APU“Richland”则面向主流笔记本电脑和桌面PC平台,它的对手是英特尔引以为傲的Core处理器。尽管AMD称之为“高性能至尊APU”,但它的架构和前一代Trinity处理器基本一样,仅仅是一个改进版本。面对目前的Ivy Bridge处理器,Richland在CPU性能测试上没有优势,但在支持APU加速的测试项目中,Richland大部分时间的表现都要好于前者。到2014年年初,AMD还将推出全新的Kaveri APU来取代Richland,它采用了全新的“压路机”内核,CPU部分的性能将会有显著提高,而GPU部分则将会采用GCN架构,拥有多达512个流处理器并支持异构化计算技术hUMA(heterogeneous Uniform Memory Access,异构统一寻址)。
尽管APU取得了相当显著的进步,但在完全实现异构计算之前,在高性能处理器领域单凭“压路机”内核是无法挑战英特尔的。此外,英特尔的GPU技术也在不断取得显著进步,比如Haswell的高端GPU将自带缓存以进一步提升性能。不过,目前在GPU和CPU的融合过程中,AMD占据先机和GPU性能之利,而英特尔则握有架构和工艺两大法宝,二者未来的竞争的确颇具看点。
APU: AMD复兴的关键
AMD收购ATI之初,雄心勃勃地宣布了著名的“Fusion”计划,试图将CPU和GPU两种内核完美整合在一起。尽管后来“Fusion”的内容不断与时俱进,但此类异构化计算处理器无疑已经成为AMD的重要目标。2011年,AMD召开了首届融合开发者大会(后改名为APU开发者大会),并推出了第一代APU Llano处理器,在2012年的APU开发者大会上,AMD又成立了HSA基金会,与多家重量级厂商共同推动HSA异构化计算。AMD认为,CPU和GPU的融合将分为4步进行:第一步是物理整合,将CPU和GPU集成在同一块硅芯片上,并利用高带宽的内部总线通讯,集成高性能的内存控制器,借助开放的软件系统促成异构计算。第二步是优化平台,CPU和GPU之间的互连接口进一步增强,并且统一进行双向电源管理,GPU也支持高级编程语言。第三步是架构整合,实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、GPU硬件可调度、CPU/GPU内存协同一致。第四步是架构和系统整合,主要特点包括GPU计算环境切换、GPU图形优先计算、独立显示卡的PCI-E协同、任务并行运行实时整合等等。目前,AMD的APU发展已经历经两步半:第一代的Llano处理器完成了片上融合,第二代的Trinity处理器和刚刚推出的 Richland处理器则实现了AMD提出的“平台优化”目标。用于索尼PS4处理器的APU则部分实现了第三步。
hUMA:统一运算的基石
GPU的浮点运算能力究竟有多强大?2002年时,频率最高的Pentium 4(Northwood)处理器浮点运算处理能力为12.24GFlops,同时代的Radeon 9700Pro则为31.2GFlops,二者相差不到3倍。而到了2012年, Core i7-3970X浮点运算能力增加到了336GFlops,但此时Radeon HD 7970 GHz Edition的浮点运算能力已经达到4.3TFlops,是前者的十几倍。如此强大的计算能力,仅仅用于游戏无疑是很大的浪费,让GPU和CPU一起工作该有多好啊!
尽管让CPU和GPU共同工作的想法很美好,但具体实现依然需要巨大的努力,其中最重要的就是要实现CPU和GPU统一内存寻址,而非CPU和GPU各干各的。为了解决这一问题,AMD在2012年成立了HAS基金会,与高通、ARM等公司一起寻求解决方案。2013年,AMD正式宣布了“hUMA”技术,为APU的进化铺平了道路。
根据AMD方面的技术文档,hUMA的主要特性包括:
(1)双向一致性内存(Bi-Directional Coherent Memory),不论是GPU还是CPU对内存中的数据做过什么改变,另外一方总是能立即“看到”更改后的数据。
(2)可调页内存(Pageable Memory),GPU可以处理页面错误,不受页面锁定内存的限制。
(3)完整内存空间(Entire Memory Spac),整个内存空间可以被GPU和CPU动态分配。
AMD声称,hUMA可以简化编程难度并降低编程开发的成本。它支持主流的编程语言如Python、C++及Java等,开发者无需专用API即可简化特殊架构的开发工作。同时,由于 CPU和GPU的代码可以互通,APU的能效也进一步提高了。目前,hUMA技术已经在索尼PS4和微软XBOX One的处理器中投入应用,而在2013年年底推出的 Kaveri将是首款支持这一技术的APU。
4线出击挽颓势
在宣布转型之后,AMD迅速确定了自己的4大发展方向,也就是按需设计的嵌入处理器、服务器处理器、基于游戏的图形硬件和针对移动设备的处理器,尽管它不会放弃PC业务,但在未来的芯片布局中,PC部分将会越来越少。当然,在这4个发展方向中也不乏对手的强力竞争。
发展嵌入式处理器
受限于产能,AMD在出售自己的芯片工厂之后,已经完全从芯片制造公司转化为芯片设计公司。按需设计芯片则是AMD最新的业务之一,AMD为此成立了半定制部门,下一代游戏机处理器就是他们的杰作。除了此类芯片之外,各类车载芯片、工业控制芯片等特殊用途的嵌入式处理器也是AMD关注的对象,并且与多家厂商展开了合作。两年多前,海尔的智能数字电视就已经开始采用AMD的嵌入式APU。
目前在AMD的官方网站上,嵌入式处理器已经拥有丰富的种类。比如在图形和数字应用方面,AMD能够提供的嵌入式处理器就包括R系列APU、G系列APU和Radeon E系列独立嵌入式GPU。AMD还为这些产品提供开发板、开发软件包和开发人员支持等内容。当然,Athlon、Opteron等处理器以及相应的芯片组也属于嵌入式处理器之列。在AMD官方网站上列出的嵌入式处理器的诸多用途中,AMD着重谈及了图形图像方面的应用,包括工业监控、数字游戏和数字标牌、机顶盒、通信和基础设施等等,这也和AMD的传统强项有着很大的关系。
兼顾ARM和x86平台
在服务器处理器领域AMD已经浸淫多年,也有不少经典的产品。但传统的服务器处理器市场增长有限,“小核心”处理器则正处在高速发展时期,ARM阵营,AMD和英特尔都瞄准了这一领域。看起来,两年前AMD在困难的情况下依然斥巨资收购服务器企业SeaMicro已经为今天的机遇和挑战做了充分的准备。
AMD方面认为,APU能够满足此类处理器的需求。从前文所述的“京都”和“柏林”两款处理器的规格来看,它们在这一领域有足够的竞争力。除了推出x86架构的服务器APU之外,AMD还与ARM在服务器领域展开了深入合作。2013年6月AMD公布的服务器路线图显示,它将在2014年推出新款采用ARM内核的处理器以取代Opteron X2150/1150。新处理器的代号为“Seattle(西雅图)”,它基于ARM的64位内核Cortex A57设计,拥有8~16个ARM内核,运行频率超过2GHz。它能够支持最大128GB内存,并且支持AMD的“Freedom Fabric”技术,可将多个处理器组合成簇,令它们能够更有效率地运行。在未来AMD的蓝图上,将是x86 APU主打中端、ARM主打低端的格局,它们将对 Atom形成围剿之势,同时也力争排除其他使用ARM架构的潜在竞争对手。
布局平板和混合本
毫无疑问,APU在平板电脑和混合本领域有着相当大的发展潜力,但AMD的高层也不止一次表示AMD目前尚不准备进军手机处理器领域。一方面如AMD所说,手机芯片利润微薄,如果不能形成规模只有亏损的份儿;但另一方面,无论是x86架构还是ARM架构,AMD都无法在短时间内拿出合格的手机用处理器,在平板电脑平台上,AMD的第三代APU Temash已经可以交出一份相当不错的答卷,但距离令人满意还有相当一段距离,特别是续航时间和发热等参数。当然,这也和厂商的设计理念有关,比如采用Temash处理器A4-1200的技嘉S10A平板电脑居然配有500GB机械硬盘和VGA接口,无论在厚度还是续航能力上都因此而有了较大的牺牲。
在混合型/轻薄型笔记本电脑平台上,APU可望有所作为,但它也面临着超低电压版Core i3处理器和新一代Atom处理器Bay Trial的强劲打压。前者的CPU架构远远优于目前移动APU所能达到的水平,而且核芯显卡的进步也相当显著。2013年5月,英特尔破天荒地提前首发了超低电压版的Haswell处理器,它的TDP也只有15W,功耗水平与Kabini几乎处在同一水平线上;新一代Atom则在待机时间等指标上表现优异且有着不错的性能。如果让超低电压版Core i3处理器始终把持着利润丰厚的高端市场,那么APU在低端市场上表现再优秀也很难达到AMD的期望。或许AMD下一代移动APU“Mullins”(Temash的后续产品)和“Beema”(Kabini的后续产品)在实现HSA之后,能够有更加出色的表现。
游戏图形力争上游
AMD方面在PC游戏图形市场中已经有着相当不错的表现,它的“中等核心”策略相当灵活,和老冤家英伟达的大核心各擅胜场。2013年10月,AMD将会发布下一代GPU“Volcano Island”(火山岛),其中的旗舰型号为“Hawaii(夏威夷)”,它将采用GCN 2.0架构,目前Hawaii GPU的具体参数尚不得而知,但比较靠谱的推断是它的性能将与GeForce GTX 780类似,略低于GeForce GTX Titan,但双核心交火的战绩将会超出GeForce GTX Titan。
尽管经典的N/A显示卡大战已经延续了10年之久,但中高端独立GPU的市场份额却在日益缩小,留给英伟达和AMD的发挥空间也越来越小。令人恐怖的性能和同样令人恐怖的发热量以及高昂的售价,使得中端独立GPU如同白垩纪的霸王龙。尽管在有限的时间内,独立GPU依然会存在,但它们也需要其他出路。英伟达目前在通用计算领域取得了不错的成绩,而AMD在这方面的表现却不如人意。
在移动图形方面,AMD可以期待更大突破。它采取了半定制的策略并得到3大游戏机厂商的支持。在取得ARM的授权之后,AMD也可以和其他厂商一起合作设计手机和掌上游戏机的处理器,而它的老对手英伟达则放开了Kapler架构的授权。当然,在这一领域,Imagination的Power VR和高通的Adreno还占据着相当大的优势。
制造工艺短板有望解决
多年来AMD屡落下风的一个重要因素就是半导体制造工艺。在出售芯片厂之后,AMD更和其他竞争者一样,面临着这一挑战。目前在半导体业界,英特尔、三星和台积电是公认的3大巨头。而其中的佼佼者则是英特尔,它的工艺领先其它竞争对手2~4年,由此带来的能耗红利是相当可观的。反观AMD的“本家”GlobalFoundries却离先进水平越来越远,除了在32nm SOI工艺中消耗了大量时间外,还要面临着SOI工艺向Bulk工艺(28nm)转换的挑战。目前一些人士认为,GlobalFoundries的28nm工艺产能将首先分配给PS4和Xbox One的定制处理器,然后才会轮到Kaveri,这将导致Kaveri的大规模上市会推迟到2014年2月,而低功耗APU Kabini和Temash则已经在早些时候直接交给台积电来代工。
当然,即使是台积电的28nm工艺也不足以挑战英特尔已经成熟的22nm 3D晶体管工艺,更不用说即将到来的14nm工艺。而台积电的20nm工艺将于2013年下半年到2014年投产,到2015年(如果顺利的话)将进一步提升到16nm。届时台积电与英特尔的工艺差距将缩短到1年左右,AMD或许可以期望 APU能够有更好的表现。此外,近来GlobalFoundries又连连释放出20nm和14nm工艺进展顺利的利好消息,如果属实的话,AMD在制造工艺上的短板也有望得到解决。
AMD迎来复兴曙光
毋庸置疑,过去数年AMD几乎都在困境中度过,但如今它似乎迎来了复兴的曙光。AMD手中的王牌就是经过多年研发的APU,它在移动设备、嵌入式设备和服务器等领域有相当广阔的发展前景,而且很可能会改变某些游戏规则。但是竞争对手依然强大,制程问题也如同达摩克利斯之剑一样悬在AMD头上。未来将会发生什么的确很难预测。