马千里 袁磊峰 王朝营
摘要:对SBB 2.0规范进行了扩展,通过增加PCIe信号提出了一种小型化的计算存储融合系统。相比于SBB 2.0,该系统融合了计算和存储两种应用,具有集成度高、功能丰富、扩展性强、兼容性好、配置灵活等诸多特性,不失为一种小型化的计算存储通用系统。
关键词: 存储桥接坞;高级电信计算架构(ACTA);串行连接小型计算机系统接口(SAS);快速外部设备互连;网络存储;服务器虚拟化
Abstract: This paper describes a small-scale convergence system that is based on storage bridge bay (SBB) and has added PCIe signals. This system combines computing and storage applications. It is highly integrated, feature-rich, scalable, and highly compatible. It also enables flexible configuration. It is a universal miniaturized computing storage system.
Key words: SBB; advanced telecom computing architecture (ATCA); serial attached small computer system Interface (SAS); PCIe; network storage; server virtualization
存储桥接坞(SBB)是由非盈利性协作组织为提高网络存储接口标准化而提出的一种规范。SBB 2.0 [1]版本定义了箱式存储阵列设备中控制器和插槽的机械、电气和底层管理特性,使得不同存储厂商基于该标准的控制器具有统一的兼容性和互操作性。如EMC公司的VNXe3150 [2]、Fujitsu公司的DX60 [3]磁盘陈列柜都是符合SBB 2.0的产品,2 U高的机箱最多可以容纳24个2.5 inch串行连接小型计算机系统接口(SAS)硬盘。
SBB 2.0设备是面向中小规模的通用网络存储而设计的,广泛适用于企业、政府、金融、电信、互联网等行业。在这些行业中,除了存储的应用外,小型化的计算应用更广,如采用高级电信计算架构(ATCA)平台[4-5]及相应的服务器刀片,典型的有Comtel公司的CO2产品[6]、Emerson公司的Centellis 2000产品[7],都是小型化、3U高的ATCA机框。
但是,这些应用也存在着系统上的不足。比如,计算和存储在物理上隔离,只作为计算或存储的应用,功能单一,集成度不高;再者,计算及存储应用间的互换性、通用性不佳。另外,对于计算应用来说,因某些限制而提供的接口或处理资源不够,扩展性不强。
针对上述问题,文章对SBB 2.0规范进行了扩展,在此基础上,提出了一种小型化的计算存储融合系统(以下简称融合系统),既适合计算应用,也适合存储应用,或者同时作为计算及存储的融合应用,应用于通信、信息及工业控制等领域。
1 SBB规范简介
SBB 2.0定义了存储阵列机箱和存储控制盒之间的机械和电气需求,以支持符合SBB规范的模块具有更高的互通性。这样以来,多个机箱可以共享同一种控制盒,或者不同的控制盒能够插入同一个机箱,解决不同产品之间的互用性问题,降低产品成本,缩短开发周期,给用户提供灵活选择。这就是SBB规范的主要精髓。
需要说明的是,SBB规范现行版本是2011年发布的2.1版,除了对SBB 2.0进行一些勘误补充外,还增加了6 Gb SAS等高速信号的定义,但总体上变化不大。文章基于最新的SBB 2.1规范,但业界仍然习惯上称为SBB 2.0。
一个典型的SBB机箱如图1所示。前视为最多24个高密度磁盘封装,后视为1~2个存储控制盒、1~2个电源风扇模块,它们都插在中背板上进行互联。
SBB 2.0为存储控制盒到中背板定义了SBB中背板连接器(SBBMI),对应两个控制盒插槽,称为SBBMI A和SBBMI B,分别由M1—M13接插件模块组成,如图2所示。
其中,M1、M5两组可选模块含有两个控制盒之间互连的高速信号,M3含有机箱管理及控制的低速信号,M4为导向插脚,M6为电源插脚,M2含有硬盘1—6的信号,可选的M7—M13含有硬盘7—48的信号。
2 融合系统原理
2.1融合系统TOPO架构
快速外部设备互连(PCIe)是第三代I/O局部总线标准[8-9],以其串行传输、点对点连接、报文交换的体系结构带来了高带宽、低开销、可扩展、高可靠、易用性等特点,加之它可以提供虚拟化方法,不仅已普遍用于主机与外部设备的高速可靠通信[10],而且在高密度计算、网络通信、工业控制等领域也得到了大量应用,具有广泛的通用性。
融合系统正是在SBB 2.0的基础上引入PCIe总线进行扩展而来。
SBB 2.0定义了48个硬盘信号,融合系统根据实际应用需求的具体情况,对支持的硬盘数量进行了缩减,单机箱仅支持12个硬盘,这样就可以将前述M8—M13的信号进行重新定义,增加PCIe 2.0的信号连接(单通道带宽5 Gb/s),并对硬盘盒的插槽进行扩展,以便混插其他的功能板卡,从而使系统兼具存储和计算的双重功能。
系统拓扑(TOPO)如图3所示。
在结构上,融合系统将SBB 2.0机箱的前后进行了颠倒,以便统一后走线。
机箱前视为横插的两个主控制器1、2(左右分别列于上部),以及两个电源风扇模块1、2(左右分别列于下部)。
中背板后视有16个竖向的插槽,可以插入相应的后插板卡,按功能可分为3个部分:
· 两侧是电源槽位1、2,用来插入电源输入板卡为系统引入外部电源,并通过中背板转接到电源风扇模块,由此给整个机箱提供电源和通风散热。
· 电源槽位向内是两个独立槽位1、2,分别对应主控制器1、2,两个主控制器分别通过这两个槽位上的独立板卡直接出对外接口,或提供相应的独立功能。
· 其余为连续的12个通用槽位,每个槽位到两个主控制器均连接有2条SAS 2.0通道和4 Lane的PCIe 2.0总线。这样,通用槽位可以混插2.5 inch SAS硬盘板卡或者PCIe功能板卡,并同时受控制器1及2的控制,实现存储或计算的功能。
和SBB 2.0一样,两个控制器之间还有相互通信的更新信号,并可完成整个机箱的管理控制功能。
2.2 SBBMI信号扩充
参考图2,融合系统对SBB 2.0扩展的关键是利用M8—M13接插件在SBBMI中引入PCIe 2.0信号。以M8为例,两个控制器到M8共有两组PCIe 2.0×4总线信号、复位信号PERST#、在位信号PRSNT1#和PRSNT2#,分配给2个后插通用槽位。控制器到M8—M13的PCIe信号共可分配给12个通用槽位,其他可选的公共信号如PCIe时钟REFCLK±、测试总线JTAG、管理总线SMBUS则通过M3连接到12个通用槽位,不需要新增接插件。图2中,以灰色表示的M1,M2,M4—M7在SBB 2.0中所定义的信号没有变化。
2.3 PCIe功能板卡构成
图4给出了PCIe功能板卡的原理构成及其与两个控制器的连接。
PCIe功能板卡上需扩展一片PCIe交换器,该交换芯片支持双主连接,配置3个PCIe 2.0×4 端口,其中两个端口经板卡上的PCIe中继器进行接收均衡、发送去加重后分别连接到两个主控制器的PCIe交换上[11-13],另外一个端口连到板卡自身的PCIe 端点设备,实现相应的板卡功能。默认情况下,这3个端口分别设置为上行、非透明(NT)和下行。此时,该功能板卡受控于主控制器1。如主控制器1出现故障,主控制器2通过心跳线更新实时检测到后,即将功能板卡上PCIe交换器的上行端口、NT端口分别重置为NT端口、上行端口,主控制器2的CPU重新枚举,从而接管对PCIe功能板卡的控制,确保系统的正常运行。
同样,功能板卡也可灵活配置为默认受控于主控制器2,主控制器2异常时即切换到由主控制器1控制。
和SBB 2.0类似,不管通用槽位上插的是硬盘板卡还是PCIe功能板卡,两个控制器均可以主备或双主方式工作,提高融合系统的可靠性和处理能力。
2.4 虚拟化技术对融合系统的支持
随着多核处理器技术的发展,尤其是Intel架构(IA)Xeon处理器按架构-工艺模式以2年为周期Tick-Tock交替持续演进,服务器的硬件性能仍然在逐年快速提升。此时,应用虚拟化技术,将一台服务器作为多个虚拟机来使用,让多个应用共享同一硬件平台,可以提高系统资源利用率,降低系统成本。
图5描述了通过虚拟化技术,在主控制器上实现计算存储的融合。基于内核虚拟机(KVM)是宿主型的虚拟机监视器Hypervisor [14],它运行在Linux操作系统内核中,将硬件资源虚拟为相互隔离的虚拟机,不同的虚拟机中运行不同的系统和应用,这样就在主控制器上同时实现了计算和存储的应用。
结合Intel提供的硬件辅助虚拟化技术,如CPU虚拟化技术VT-x、芯片组虚拟化亦即定向I/O虚拟化技术VT-d[15]和网络连接虚拟化技术VT-c,KVM具有很高的虚拟化性能,并且更为高效和安全。
2.5 融合系统的应用
利用PCIe总线的通用性,可以对PCIe功能板卡、硬盘板卡以及融合系统通用槽位进行统一的机械和电气规格定义,不但能实现PCIe功能板卡间的兼容性和互换性,而且PCIe功能板卡与硬盘板卡在融合系统的通用槽位上还可以混插。
根据应用需求,PCIe功能板卡上的Endpoint设备既可以作为主控制器对外的时分复用(TDM)接口、IP接口或者数据采集/转换接口,扩展系统对外的接口种类和数量,比如1个PCIe接口板卡可以出1个10 GbE口、4个GE网口或者8个E1接口;另外,端点设备也可以用作硬件加速,如扩展数字信号处理(DSP)、IPSec、分辨率(DPI)引擎芯片,配合主控制器实现语音或视频编解码、IP加密、深度报文检测的集中处理,完成计算方面的协处理功能,适合通信产品的小型化应用。
再结合存储和虚拟化技术,融合系统可以进一步完成通信产品的多网元合一或者多模合一的应用需求,提高系统的集成度。比如,原来需要一个3U ATCA再加一个磁盘阵列柜的系统或者需要两个3U ATCA的系统,在一些场景下只需要一个融合系统即可实现[16-17]。
3结束语
综上所述,通过对SBB 2.0稍加扩展,引入PCIe 2.0信号,我们在继承SBB 2.0大部分特性的基础上,可以设计出尺寸为宽19 inch、高度2 U、深度约400 mm,采用交直流供电、前后通风的小型化计算存储融合机箱。该机箱的深度与前述的ATCA机框相当,但是比前述的磁盘阵列柜要浅很多。机箱前插有两个主备或双主工作的主控制器,后插有充足的通用槽位,可以混插最多12个2.5 inch SAS硬盘板卡或各种PCIe功能板卡,一套系统既适合存储应用,又适合计算应用,或者计算及存储的融合应用。
相对而言,尽管融合系统的存储容量弱于SBB 2.0磁盘阵列柜,计算性能较小型化的ATCA系统会稍有不足,但是,在SBB 2.0基础上提出的系统融合了计算和存储两种应用,具有集成度高、功能丰富、扩展性强、兼容性好、配置灵活等诸多特性,不失为一种小型化的计算存储通用系统。
参考文献
[1] Storage Bridge Bay(SBB). Specification Version 2.1[S].2011.
[2] EMC Corporation. EMC VNXe系列VNXe3150硬件信息指南[Z].2012.
[3] Fujitsu Limited. ETERNUS DX60/DX80/DX90 SA/SE Disk Storage System Handbook[Z].2010.
[4] PICMG3.0. AdvancedTCA (Base Specification) Rev3.0[S]. 2008.
[5] PICMG3.4. AdvancedTCA PCI Express Rev1.0[S]. 2003
[6] COMTEL Electronics GmbH. 3U 2 Slot AdvancedTA Shelf User Manual[Z].2009.
[7] Emerson Electric Co. Centellis 2000 AdvancedTCA Platform Core[Z].2009.
[8] PCI Express Base Specification Revision 2.0[S].2006.
[9] PCI Express Card Electromechanical Specification Revision 2.0[S].2007.
[10] 王齐.PCI Express体系结构导读[M].北京:机械工业出版社,2010:101-139.
[11] PLX Technology,Inc. ExpressLane PEX 8612-AA,AB and BB 12-Lane/3-Port PCI Express Gen 2 Switch Data Book[Z]. 2013.
[12] Pericom Semiconductor Corporation. PI2EQX5984 5.0Gbps 4-lane PCIe 2.0 ReDriver with Equalization & Emphasis[Z]. 2012.
[13] PLX Technology,Inc.ExpressLane. PEX 8664-AA 64-Lane,16-Port PCI Express Gen 2 Multi-Root Switch Data Book[Z]. 2013.
[14] 广小明,胡杰,陈龙,郭京.虚拟化技术原理与实现[M].北京:电子工业出版社,2012:156-188.
[15] 英特尔开源软件技术中心,复旦大学并行处理研究所.系统虚拟化——原理与实现[M].北京:清华大学出版社,2009:104-151.
[16] Avaya Inc. Avaya Aura Communication Manager Hardware Description and Reference Release 6.2[Z].2012.
[17] Cisco Systems,Inc. Cisco Unified Communications on the Cisco Unified Computing System[Z]. 2012.
参考文献
[1] Storage Bridge Bay(SBB). Specification Version 2.1[S].2011.
[2] EMC Corporation. EMC VNXe系列VNXe3150硬件信息指南[Z].2012.
[3] Fujitsu Limited. ETERNUS DX60/DX80/DX90 SA/SE Disk Storage System Handbook[Z].2010.
[4] PICMG3.0. AdvancedTCA (Base Specification) Rev3.0[S]. 2008.
[5] PICMG3.4. AdvancedTCA PCI Express Rev1.0[S]. 2003
[6] COMTEL Electronics GmbH. 3U 2 Slot AdvancedTA Shelf User Manual[Z].2009.
[7] Emerson Electric Co. Centellis 2000 AdvancedTCA Platform Core[Z].2009.
[8] PCI Express Base Specification Revision 2.0[S].2006.
[9] PCI Express Card Electromechanical Specification Revision 2.0[S].2007.
[10] 王齐.PCI Express体系结构导读[M].北京:机械工业出版社,2010:101-139.
[11] PLX Technology,Inc. ExpressLane PEX 8612-AA,AB and BB 12-Lane/3-Port PCI Express Gen 2 Switch Data Book[Z]. 2013.
[12] Pericom Semiconductor Corporation. PI2EQX5984 5.0Gbps 4-lane PCIe 2.0 ReDriver with Equalization & Emphasis[Z]. 2012.
[13] PLX Technology,Inc.ExpressLane. PEX 8664-AA 64-Lane,16-Port PCI Express Gen 2 Multi-Root Switch Data Book[Z]. 2013.
[14] 广小明,胡杰,陈龙,郭京.虚拟化技术原理与实现[M].北京:电子工业出版社,2012:156-188.
[15] 英特尔开源软件技术中心,复旦大学并行处理研究所.系统虚拟化——原理与实现[M].北京:清华大学出版社,2009:104-151.
[16] Avaya Inc. Avaya Aura Communication Manager Hardware Description and Reference Release 6.2[Z].2012.
[17] Cisco Systems,Inc. Cisco Unified Communications on the Cisco Unified Computing System[Z]. 2012.
参考文献
[1] Storage Bridge Bay(SBB). Specification Version 2.1[S].2011.
[2] EMC Corporation. EMC VNXe系列VNXe3150硬件信息指南[Z].2012.
[3] Fujitsu Limited. ETERNUS DX60/DX80/DX90 SA/SE Disk Storage System Handbook[Z].2010.
[4] PICMG3.0. AdvancedTCA (Base Specification) Rev3.0[S]. 2008.
[5] PICMG3.4. AdvancedTCA PCI Express Rev1.0[S]. 2003
[6] COMTEL Electronics GmbH. 3U 2 Slot AdvancedTA Shelf User Manual[Z].2009.
[7] Emerson Electric Co. Centellis 2000 AdvancedTCA Platform Core[Z].2009.
[8] PCI Express Base Specification Revision 2.0[S].2006.
[9] PCI Express Card Electromechanical Specification Revision 2.0[S].2007.
[10] 王齐.PCI Express体系结构导读[M].北京:机械工业出版社,2010:101-139.
[11] PLX Technology,Inc. ExpressLane PEX 8612-AA,AB and BB 12-Lane/3-Port PCI Express Gen 2 Switch Data Book[Z]. 2013.
[12] Pericom Semiconductor Corporation. PI2EQX5984 5.0Gbps 4-lane PCIe 2.0 ReDriver with Equalization & Emphasis[Z]. 2012.
[13] PLX Technology,Inc.ExpressLane. PEX 8664-AA 64-Lane,16-Port PCI Express Gen 2 Multi-Root Switch Data Book[Z]. 2013.
[14] 广小明,胡杰,陈龙,郭京.虚拟化技术原理与实现[M].北京:电子工业出版社,2012:156-188.
[15] 英特尔开源软件技术中心,复旦大学并行处理研究所.系统虚拟化——原理与实现[M].北京:清华大学出版社,2009:104-151.
[16] Avaya Inc. Avaya Aura Communication Manager Hardware Description and Reference Release 6.2[Z].2012.
[17] Cisco Systems,Inc. Cisco Unified Communications on the Cisco Unified Computing System[Z]. 2012.