王 飙 胡苏太
多核微处理器以其开发时间短、性能高而得到众多厂商的青睐,AMD和英特尔还针对台式机、服务器和笔记本电脑推出各种型号的微处理器。本文对部分企业现有的多核微处理器芯片的结构和所采用的技术进行了研究。
国外厂商发展CMP处理器,基本上经过了从“双核”到“多核”的步骤。实际上,对“多核”处理器的性能目前仍然没有一个公认的评价标准。同构CMP在高线程级并行度应用领域,比如服务器,能够表现出很高的性能。对于线程级并行度较低的工作负载,其性能却不尽如人意。而异构CMP结构正好可以弥补这一缺憾。它的“主核”采用设计较为复杂的高性能处理器核心,用于高效地处理线程级并行度较低的工作负载,而大量相对简单的“从核”则可以高效地处理高线程级并行度的工作负载。2005年,Sony、Toshiba、IBM共同推出的“Cell”处理器就采用了异构CMP结构。值得注意的是,本来是三家公司为下一代游戏机和流媒体设备研制的“Cell”处理器,由于其软硬件支持多种灵活的编程模式,大大拓宽了其应用领域,目前IBM已经生产出了基于Cell的商用服务器,其应用领域还将继续向医药和军事领域扩展。
AMD的多核微处理器芯片
AMD Athlon64 X2和 双核Opteron
Athlon 64 X2(參见图 1)的两个处理器内核通过共同的系统请求接口,与集成的内存控制器和1条HyperTransport通路,通过交叉开关相连。这样的结构在形成多路系统时,不存在对系统总线带宽和内存带宽的争抢瓶颈。使用128bitDDR内存控制器来支持双通道DDR内存,采用1GHz的HyperTransport总线与其他芯片或I/O连接。Athlon64 X2的每个核心拥有独立的L1、 L2 Cache及执行单元。一级Cache为64KB,两路组相联的指令Cache和64KB,两路组相联的指令Cache。二级Cache为1MB容量,16路组相联结构。核心之间的连接需要通过System Request Queue(SRQ系统请求队列)和交叉开关实现。交叉开关(Crossbar)用来控制核心与外部的通信,SRQ则负责协调两个核心对I/O资源的争用。芯片采用939管脚的lidded micro PGA封装,管脚间距为1.27mm,31×31阵列,有机基板尺寸为40mm×40mm。
Opteron双核处理器的两个核心各自拥到完全独立的执行部件和L2缓存,但仅配备一个内存控制器,同时和两个核心一起协同工作,实现资源共享。Opteron双核处理器采用90nm工艺和SOI及“Dual Stress Liner”应变硅技术; 兼容Socket 940系统,一级Cache和二级Cache的结构和容量与Athlon X2一样; 拥有2.05亿个晶体管(目前的Opteron处理器拥有1.06亿个晶体管),架构将比目前的单核心处理器架构要复杂93%~94%; 首款双核心Opteron的工作频率为1.6GHz; 双核AMD64架构与目前的AMD64架构相比没有任何改变,仍将使用1GHz HyperTransport总线与芯片组连接及支持双通道DDR内存技术; 兼容目前支持单核Athlon 64和Opteron处理器的芯片组,所以升级最新BIOS就能使目前所有K8平台支持新的双内核处理器,从而大大降低应用和升级成本; 最大功耗将低于95W,能在目前为Athlon 64和Opteron处理器制定的散热系统下正常工作; 双核Opteron也引入了一些创新技术,包括支持10条新SSE3指令,拥有4路联合缓冲区而不是目前的2路,并引入了节能技术。芯片采用940管脚的lidded micro PGA封装,管脚间距为1.27mm,31×31阵列,陶瓷基板尺寸为40mm×40mm。
AMD认为,它的双核Opteron并不只是简单地将两个Opteron处理器核心集成在一个硅芯片(或称DIE)上,与单核Opteron相比,它增添了“系统请求接口”和“交叉开关”,它们的作用是对两个核心的任务进行仲裁,实现核与核之间的通信。它们与集成的内存控制器和HyperTransport总线配合,可让每个核心都有独享的I/O带宽、避免资源争抢,实现更小的内存延迟,并提供更大的扩展空间,让双核能轻易扩展成为多核。
英特尔的多核微处理器芯片
多核微处理器Pentium D/Pentium E
双核奔腾至尊版和奔腾D采用共享前端总线的双核架构,各核心的L1 、L2 Cache均为独立,双核争用前端总线的仲裁功能放在芯片组的北桥芯片中。英特尔认为系统中的主要瓶颈还是内存、I/O总线和硬盘系统,因此在945和955系列芯片组中加强了对PCI-Express总线的支持,增加了对更高速DDR2内存的支持,对串行ATA的支持速度由1.5Gb/s升级为3Gb/s,进一步增加了对磁盘阵列RAID 5 和RAID 10的支持。奔腾至尊版还加入了超线程技术。
以迅驰技术为核心的Core Duo和Core 2 Duo
Core Duo是2006年刚刚发布的新一款多核微处理器芯片,开发代号为Yonah。该芯片使用采用迅驰技术的Pentium CPU作为其内核,主要用于笔记本电脑。该芯片与其它英特尔已经发布的多核微处理器相比的最大区别是采用了Smart Cache技术,两个核共享一个2MB的2级Cache和系统接口总线。
Core Duo已知的亮点还有它采用的三项技术,分别是:
● 让它支持SSE/SSE2/SSE3指令集解码、优化其浮点计算能力的“Digital Media Boost”技术;
● 由SpeedStep技术演化而来、可让Yonah每个核心根据电池电量自动、独立地进行降频或休眠等节能操作的Dynamic Power Coordination技术;
● 通过在每个核心中集成温度传感器来侦测处理器是否过热或耗能过高、从而进行降频操作(可让单一核心独自降频)的Advanced Thermal Manager技术。
以Xeon为基础的多核微处理器
英特尔在2006年推出第一个双核心Xeon处理器,研发代号为“Dempsey”和“Paxville”。其中Dempsey针对双处理器系列,Paxville则针对多对称处理系统。双核心Xeon处理器和Smithfield之间的主要差别是双核心Xeon支持Hyper-Threading技术,能同时执行4线程的运算任务。为了支持Dempsey和Paxville,英特尔将在2006年初发布Blackford和Greencreek两款芯片组。这两款芯片组的最大特点是充分支持Buffered DIMM、FB-DIMM内存及新双独立总线,它采用点对点的拓扑架构,可以让每个物理内核直接与北桥芯片相连接。这项革新将能显著增加英特尔多处理器系统的性能,而此前英特尔多处理系统的所有处理器往往需要共享一条总线。。
Itanium 2 为基础的多核微处理器Montecito
2005年英特尔为Itanium家族带来研发代号为Montecito的双核心Itanium处理器。Montecito拥有两个Itanium 物理内核,由整合的arbiter仲裁装置管理、协调工作及拥有更大容量的L3缓存。像Smithfield处理器一样,Montecito的缓存也被平均分配到两个物理核心之间。Montecito处理器拥有24MB L3缓存(每个物理核独立拥有12Mb)及2组 L2缓存记忆: 其中1MB为指令缓存(由两物理核心共享和512 KB数据缓存,其中各核心独立拥有256KB数据缓存)。因此,一个双核心Itanium 2处理器所拥有缓存容量将达到26.5MB,而核心将由17.2亿个晶体管组成
第一款Montecito处理器将采用90nm生产技术生产,核心尺寸将达到惊人的580平方毫米。Montecito处理器的初始频率将为1.7GHz。功耗将控制到100W范围内。由于Montecito中的两个核心之间支持分割运算处理,因此Montecito将支持与Hyper-Threading相类似的Coarse-Grained Multi-Threading技术。每个核心在操作系统中被视为两个逻辑处理器,所以每颗Montecito将被视同四个处理器,Montecito的性能将是目前Itanium 2 9M的1.5~2倍,但增加了2%的核心面积。而且Montecito处理器将也支持Pellston技术(此技术可以提高缓存运行的可靠性,可以随时验证cache-line内的数据,如果发生错误,处理器将有能力停用有问题的缓存线程)和Foxton技术(一种处理器控温技术,可以通过降低处理器的效能来降低温度)。
在2006年,双核心Montecito处理器的产品线将有所延伸。英特尔将针对双处理器系统对Montecito进行改良,推出电压更低的Millington处理器。然后Montecito和Millington将会改用65nm生产技术,并且统一改用“Montvale”研发代号。
英特尔多核微处理器的路线图
英特尔的下一款65nm芯片是Whitefield。它是具有8MB或16MB L2高速缓存及四个Merom内核的处理器。
英特尔准备运用45nm工艺在芯片中放置8个内核,8核心产品称做Yorkfield与Harpertown。在技术方面,Yorkfield和Harpertown内核非常类似,只不过Yorkfield是台式电脑专用,Harpertown则是针对企业级用户。
就目前的状况,英特尔可能使用四个Wolfdale芯片(每个芯片各有3MB L2高速缓存)以制造出8核心的超级处理器芯片。另外,英特尔也可能推出两个各有6MB L2缓存的4核心芯片。虽然这些都还在规划中,我们相信用不了多久就能看到这些设计。
IBM的多核微处理器
Power 5
双核心Power5芯片将L1 Cache 和L2 Cache集成在片内,L3 Cache放在片外。L1 Cache为私有,L2 Cache为共享。三个0.625MB的L2 Cache和两个核心之间用CIU(Core Interface Unit)连接,L2 Cache和L3 Cache之间直接互联。内存到芯片的带宽为16GB/s。POWER5还加入了SMT技術。Power 5与Power4的最大不同在于与三级Cache的连接方式。并且提升了2级Cache和3级Cache的容量,将访存带宽提高到16GB/s。
此外,Power5提供8组线程优先层数,以改进处理器执行资源的分配弹性。对于无法从SMT模式中得到效益的单线程应用程序,Power5亦提供ST模式,将全部运算资源集中在该线程,在AIX下,系统管理者可以使用smtctl命令动态启动/关闭SMT模式(Linux尚未支持)。由于SMT提高处理器执行单元的使用率,直接拉高处理器的耗电量,Power5加入了动态电源管理机制,有别于一般以降低频率,或是关闭部分功能单元的传统方式,Power5可以在不降低频率的前提下,动态关闭用不到的逻辑闸,以兼顾效能及省电。
IBM在去年公布的Power处理器路线图,透露了Power6将是采用“Ultra High Frequency”的设计,和前面众多双核心的Power处理器相比,显得独树一帜。在“频率无用论”的浪潮中,Power4率先采用双核心设计的IBM,却似乎回过头来大幅提升处理器的频率。这是否代表IBM在工艺技术上有着重大突破,或者是另类的策略考虑,相当值得观察。
Cell-异构CMP
Cell是以IBM,SONY和TOSHIBA等公司共同研发的。内部有一个64位PowerPC微处理器部件(PPE),8个协处理器部件(SPE),二级Cache。它共有9个CPU内核,一个Power架构RISC型64位CPU主核“PPE”和8个浮点处理用的32位8路SIMD型CPU从核“SPE”(Synergistic Processing Element)。 Power微处理器内核是Cell处理器的大脑,是运行设备的主操作系统,并为8个“协处理器”分配任务。Cell本身的结构是可编程的,可根据具体需求增加或减少协处理器的数量。
Cell的PPE可以同时执行2个线程的SMT架构(类似于英特尔的HT超线程技术),一级Cache配备16kB指令Cache和16kB数据Cache以及512kB的二级Cache。1个SPE的最大单精度浮点运算速度为32G Flops,8个SPE的峰值性能为256GFLOPS,9个核心同步时钟运行。Cell采用灵活的架构设计,使得它相对于传统处理器提供了一种突破性的解决方案。Cell处理器的另一个优势是同时支持多种操作系统。
SPE上有一个浮点运算部件和一个整数运算部件,以及一个置换部件,转移部件和负责与本地256KB的存储器相连的Load/Store部件。SPE可同时执行2条指令超标量,并配备有浮点和整数部件公用的128位×128个的通用寄存器。SPE内部的数据总线是128位的,支持128位的SIMD运算。SPE通过DMA部件与内部总线相连接,与存储器,主核和其他SPE相连接。为了便于核间通信,整个Cell内部是统一编址的。
部件互联总线(EIU)将PPE、SPE、存储器控制器和IO控制器连接在一起。EIU由四组环组成,每一组环都是128位的。为了减少耦合噪声,将线分成四组,每组用电源和地进行屏蔽。Cell处理器具有丰富的工作模式: 函数offload 模式、设备扩展模式、计算加速模式、流模式、共享存储器多处理器模式、非对称线程运行模式,其峰值性能达256Gflops。
Sun和Fujitsu的多核微处理器UltraSPARC IV
UltraSPARC IV是一个双核微处理器,其内部集成了两个经过修改的UltraSparc III。采用0.13μm CMOS工艺,工作频率为1.2GHz。两个核通过系统接口部件(SIU)相连接,采用监听方式保证两个核内的Cache一致性。每个核有64KB的数据Cache是4路组相联,并且包含有一个2KB的预取Cache和2KB的写Cache。指令Cache的容量只有32KB,也是4路组相联的。所有一级Cache的运行速度只有处理器工作频率的一半。芯片工作在1.2GHz时,每个核的峰值性能为2.4Gflops。芯片支持监听一致性协议,支持多个芯片间的Cache一致性。
Sun在去年10月下旬微处理器论坛时正式披露了UltraSPARC Ⅳ的改良版—UltraSPARCⅣ+处理器。结构上仍维持原先双核心设计,不过UltraSPARCⅣ+将预取缓冲区从原先一条增加为八条,同时一级高速缓存增加为128KB,最重要的是首度内建2MB二级高速缓存,并且原先的L2 tag就变成L3 Tag,对外连接的二级高速缓存变成三级高速缓存,倍增为32MB。采用90纳米重新打造、加入L2 Cache之后的UltraSPARCⅣ+,主频大幅拉升到1.8GHz,功耗也降低为90W。UltraSPARCⅣ+的芯片多线程效能得以大幅攀升,同时对外的32MB三级缓存也能跟UltraSPARCⅣ+处理器内的二级缓存协同运作,以降低L2 Cache 延时和对外搜寻三级缓存的延迟时间。
Fujitsu已经推出90nm工艺所生产的SPARC64 V,频率介于1.8GHz至1.9GHz,拥有4MB L2高速缓存,晶体管约四亿,在频率超过2GHz时,耗电量依然不高于65W。近期公布的SPEC CPU 2000效能数据也相当的出色,1.89GHz的90nm SPAR64 V,整数及浮点分别有1345和1803。计划2006年推出SPARC64 VI。
UltraSPARC T1
2005年Sun公司发布了UltraSparc T1微处理器,主要定位于网络处理市场,结合了CMP与MT技术。它包含了8个处理器核心,每个处理器核心可以同时运行4个线程。芯片一个引人注目的特性就是片上集成的TCP/IP Offload引擎。TOE可以大幅度减少CPU开销并提高网络带宽利用率和降低网络延迟,在10G以太网时代这一特性非常重要。
每个核有4路组相联。容量为16KB的一级指令Cache,4路组相联,容量为8KB的一级数据Cache,以及一个分成4个体,12路组相联,容量为3MB的二级Cache。有4个,144位的DDR2存储器控制,工作频率为533MHz,峰值带宽约32GB/s。总线接口为128位的,工作频率为150~200MHz,峰值带宽为3.1GB/s。该芯片使用0.09μm CMOS工艺,9层铜金属布线,工作频率有1.0GHz和1.2GHz两种,峰值性能为9.2Gflops。平均功耗为72W,峰值功耗仅79W。
HP的多核微处理器
HP PA-RISC 8800微处理器
HP PA-RISC 8800 是2005年2月发布的,它使用0.13μm工艺,工作频率为900MHz~1GHz。芯片有兩个核心,芯片的带宽为6.4GB/s。CPU核心几乎是PA-RISC 8700+的缩小版。指令Cache和数据Cache都达到1.5MB,都是4路组相联的,片上没有二级Cache,通过片上大容量的一级Cache来弥补其不足,片外二级Cache最大容量可达32MB。
PA-RISC 8800的每个核都是乱序执行的,有32个整数寄存器文件和浮点寄存器文件,整数部件有两个加/逻辑部件,两个移位/合并部件以及两个进行存储器访问管理的Load/Store部件。浮点部件也有两套乘加部件和两套除法/平方根部件,每个核实现的峰值性能为4Gflops。所以整个芯片的峰值性能为8Gflops。
根据HP的计划,HP的PA-RISC 8900还将继续,将于IA-64 Itanium为核心的Montecito同时存在,这与先前宣布的将终止8800后继的芯片的研发相矛盾。
多核产品发展展望
多核微处理器以其开发时间短、性能高而得到众多厂商的青睐,AMD和英特尔还针对台式机、服务器和笔记本电脑推出各种型号的微处理器。与2005年相对落后的情况相比,英特尔公司明显走在了2006年多核研究的前列。在新近召开的英特尔信息技术峰会上,英特尔展示了最新的多核研究成果——酷睿双核处理器。2006年英特尔还将陆续有3款基于全新构架的新型双核处理器面世,它们分别是Sossaman、Demsey和Woodcrest。英特尔计划在2007年年初推出针对双路服务器的4核处理器Clovertown和针对高端桌面个人电脑的4核处理器Kentsfield。同时,英特尔正在准备一款代号为“Yorkfield”的8核芯片,计划在2008年推出。AMD也在开发4核芯片,据报道,还准备开发16核的芯片。在国内,中科院计算机研究所已经开始多核芯片的研发工作,计划在2006年开始研发4核芯片,以后陆续启动8核、32核芯片等研发工作。CMP 芯片正方兴未艾,成为未来推动微处理器发展的一个重要因素。