蓝色
下一代内存技术则会有DDR5、HBM、HMC等,它们还会根据不同应用范围衍生出多个版本。预测DDR、HBM及HMC三强争霸的结局还太早了,要想分出胜负我们还得掂量掂量这三者在性能、功耗及成本上的表现。
从Haswell-E处理器开始,内存就开始从DDR3向DDR4升级,经过2年多时间的磨合,到了今年DDR4内存也可以说是白菜价了。2015年AMD推出了Fiji核心的Fury系列显卡,它使用的是HBM显存,与之前的GDDR5显存不同,HBM可以说是普通人接触到的第一款3D堆栈内存,它代表着未来,而DDR内存则是主流代表,下一步是DDR5内存,再加上美光、Intel主导的HMC内存,这三者以及它们的衍生品可以说是2020年之前内存/显存技术角逐天下的主角了。
下一代内存技术则会有DDR5、HBM、HMC等,它们还会根据不同应用范围衍生出多个版本。预测DDR、HBM及HMC三强争霸的结局还太早了,要想分出胜负我们还得掂量掂量这三者在性能、功耗及成本上的表现。
DDR5
2014年随着Hasewll-E处理器及X99主板的问世,DDR4内存首次进入桌面市场,不过X99平台是面向发烧级玩家的,到了2015年Intel又推出了Skylake处理器,这才算是走入主流市场。经过这两年的发展,DDR4内存已经从王谢堂前燕飞入寻常百姓家了,性价比完全不输DDR3内存。DDR4的技术原理方面,简单来说就是在基础频率无法大幅提升的情况下,DDR4通过翻倍提升显存核心的Bank(内存库)数量变相提高了数据吞吐率,其数据频率可从前代的0.8-2.1Gbps大幅提升到1.6-3.2Gbps,進而提高了内存带宽。此外,DDR4内存的电压也从前代的1.5V降低到了1.2V,提高了能效,而随着工艺的进步,DDR4内存的核心容量也从之前4Gb提升到了8Gb、16Gb,可以轻松实现单条64GB以及128GB内存,这些都是它比DDR3内存先进的地方。目前高频DDR4内存频率已经达到了4.26Gbps,差不多又到了一个极限了,下一步该准备DDR4的继任者了,不出意外的话,其命名就是DDR5,技术路线也类似DDR3到DDR4那样,核心频率同样不会有大幅提高,能做文章的地方还是数据预取位宽、内存库数量等。
DDR5内存目前还在研发阶段,尚未有具体规范,所以厂商公布的很多规格都不是确定的,其目标是相比DDR4内存至少带宽翻倍,容量更大,同时更加节能,具体来说就是数据频率从目前1.6-3.2Gbps的水平提升到3.2-6.4Gbps,预取位宽从8bit翻倍到16bit,内存库提升到16-32个。至于电压,DDR4电压已经降至1.2v,DDR5有望降至1.1v或者更低。(图4)
在三星讨论的DDR5内存规范中,其目标跟美光基本一致,也是带宽至少翻倍,预取位宽也会翻倍,不过内存库数量还是16个,与美光公布的数据略有不同。不过在时间点上,业界还是有一定共识的——DDR5预计在2017年完成规范制定,2018年出样,2019年开始生产,不过要普及的话估计至少是2020年的事了。此外,尽管美光、三星都没提制程工艺的问题,不过2018年10nm工艺已经量产了,2020年左右则是7nm节点了,而目前DDR4最先进的工艺是18nm,到了2020年那个时间段,内存也会杀向10nm以下节点的。(图5)
说DDR5内存是最正统的内存续作,不仅因为它是最主流的内存选择,还与它的衍生版有关——显存用的下一代GDDR与手机、平板用的LPDDR低功耗内存都跟DDR5息息相关,业界在讨论DDR5内存的同时,同样也没忘了GDDR6及未来的LPDDR5内存。
很久之前显卡用的显存是跟PC内存一样的,但是随着GPU性能的不断提升,对带宽的要求也水涨船高,普通PC内存已经满足不了需要了,在DDR内存基础上就衍生出了GDDR内存,GDDR5就是在DDR3基础上衍生的,大部分规格都是相同的,不过数据预取位宽从4bit翻倍到8bit,所以带宽在DDR3基础上提高一倍,这也是其数据频率是真实频率4倍的由来,而普通DDR3内存是2倍真实频率。
在DDR5基础上衍生出来的显存就是GDDR6(虽然还不是正式定名)了,它的实际频率与目前高频GDDR5内存差不多,都是1.75GHz左右,但因为预取位宽再次翻倍,数据频率则会从7Gbps提升到14+Gbps,这个思路其实跟美光主推的GDDR5X显存是一样的,同样是在不提高实际频率的情况下通过提升预取位宽实现带宽提升。当然,为了进一步降低功耗,GDDR6显存的电压也会从目前1.5V降至1.35V。
低功耗LPDDR内存也会在DDR5基础上演进,其速率也能达到6.4Gbps,不过电压则会进一步降低,目前LPDDR4已经是1.1v电压了,LPDDR5电压会低于1.1v,目标是实现20%的能效提升。
HBM
2015年AMD推出了Fiji核心的Fury系列显卡,虽然推出的三款显卡都是面向高端市场的,售价比较高,但从技术上来说Fury系列显卡绝对是显卡史上的一次重大变革,因为它用上了HBM显存,它不仅仅是性能更强大,最重要的是HBM显存极大地减少了PCB面积占用,可以把高端显卡做的非常小巧,AMD的R9 Nano显卡是2015年让笔者印象最深刻的产品,比GTX Titan X和GTX 980 Ti更有意义。
对于HBM显存,一句话来说就是HBM在电压只有1.2V的情况下将显存带宽提升到512GB/s,性能更强,功耗更低,占用面积更小。到了2016年,HBM显存又进化到了第二代,并正式成为JEDEC标准。与前代产品相比,HBM 2显存核心容量从2Gb提升到8Gb,数据频率从1Gbps提升到2Gbps,带来的好处就是在同样4-hi堆栈下,HBM 2单颗显存容量可达4GB,带宽1024GB/s。
HBM显存最早是AMD和SK Hynix联合研发的,第一代HBM显存主要是SK Hynix在生产,HBM 2时代NVIDIA、三星也参与进来了,前者首发了HBM 2显存的Tesla P100加速卡,SK Hynix也开始量产HBM 2显存了,有2-hi、4-hi、8-hi三种堆栈方式,频率1.0、1.6及2.0Gbps,带宽分别是128、204256GB/s,堆栈容量2、4、8GB,最高可实现32GB堆栈总容量,1024GB/s带宽。
HBM 2还没上市,三星已经在讨论HBM 3显存了,预计在2019-2020年问世,不过目前并没有确切的规格。从三星的表态来看,HBM 3会进一步提高堆栈层数、核心容量及带宽,但在核心频率、内存库、DQ位宽方面保持HBM 2的水平,不过就算提升容量和堆栈层数,也足够HBM 3容量翻倍、带宽翻倍了,64GB HBM 3容量不是梦。值得注意的是,HBM 3显存的电压预计会比目前1.2v低得多,这有助于大幅降低HBM 3功耗。
从HBM显存问世开始,我们就知道它是个好东西,各方面完胜GDDR显存——除了成本太高,因为HBM显存是新标准,产能不足,而且它是2.5D堆栈的,制造工艺比GDDR5显存复杂多了,这都加剧了HBM显存的普及难度。在这方面,三星一方面在推进更高性能的HBM 3,同时也在探讨研发低成本的HBM,通过移除ECC校验、缓冲器層、减少I/O及降低TSV数量(TSV工艺中打孔数量越多,性能越好,但会更复杂),这些手段有助于减少HBM成本,虽然这会对HBM性能造成一定影响,I/O位宽从1024bit减少到512bit,但可以通过其他手段弥补,比如提高数据频率到3Gbps,这样一来低成本HBM的带宽会从256GB/s降低到200GB/s左右,还在可接受范围内,而制造成本就低多了。对HBM来说,阻碍它普及的最大障碍就是成本了,一旦低成本HBM得以实现,那么HBM就有可能不再局限于高端显卡之中,CPU也可以拿它来做缓存了。
HMC
如同闪存从2D NAND转向3D NAND一样,内存也要从平面转向3D立体,前面的HBM就是3D内存技术的一种,不过它并非唯一选择,美光、Intel还有HMC(Hybrid Memory Cube)内存,它也是通过TSV硅穿孔工艺堆栈多层DRAM核心以实现3D堆栈的。
实现3D堆栈之后,HMC也可以搭积木一样堆叠内存核心了,带来的优势就是:
·性能更强,带宽是DDR3内存的15倍
·功耗更低,功耗比DDR4减少70%
·占用面积更小,比DDR4减少90%
·设计更简单,通道复杂性比DDR4减少88%
HMC与HBM都是TSV工艺的堆栈内存,很容易混淆,不过具体结构上HMC内存与HBM还是有很大不同的,它可以分为三个层次——顶部的是堆栈的DRAM核心,中间有个逻辑层(logic Layer),最下面则是封装层(package)。(图14)
HMC与处理器的连接方式也不同,HBM有个工艺复杂的中介层,打通了处理器与HBM芯片,而HMC与处理器连接是靠4条高速Link,每条Link有16个通道,速度最高可达30Gbps,典型速度有10Gbps、15Gbps、25Gbps。如果是4-link、10Gbps速度,那么带宽可达160GB/s,15Gbps速度则是240GB/s,美光还在开发8-link HMC,带宽可上320GB/s。
美光目前量产的HMC单颗容量2GB,核心容量为4Gb,4层堆栈,带宽160GB/s,算起来性能比HBM 2显存的256GB/s要差一些,不过HMC相比HBM还有个优势,那就是HBM的高带宽需要离处理器很近,显卡跟HBM都是封装在一起的,所以制造工艺复杂,成本太高,而HMC通过Link与处理器相连,既可以做近场内存(near memory),也可以距离远点(far memory),部署更加灵活。(图15)
不过与HBM显存受到显卡、FPGA追捧不同,HMC推广的力度就小多了,尽管HMC阵营也有三星、SK Hynix参与,但真正在推的只有美光、Intel,Intel代号“Knights Landing”的Xeon Phi上使用了16GB片上缓存,就是美光提供的HMC,号称是DDR4内存的5倍性能、5倍能效,同时面积占用只有后者1/3。HMC的规范发展已经到了2.0时代,据说美光今年还要推出HMC 3.0规范,Link数量、堆栈层数、核心容量都有进一步提高,带宽可提升到480GB/s,该指标跟HBM 3差不多同级了。
总而言之,DDR5内存的发展是按部就班,DDR5技术使用传统思路提升带宽、降低能耗,而HBM及HMC则是3D堆栈,发展潜力比DDR5更诱人,不过3D堆栈目前制造过程复杂,成本太高,主要用于高性能计算领域,普通消费者要想用上廉价3D内存/显存还要等技术成熟。