(中国信息通信研究院云计算与大数据研究所,北京 100191)
数据中心能够有效地将各类IT设备、供配电系统、制冷系统及其他辅助性系统设备组织起来,对外提供规范化的、组织化的IT应用服务,是支撑云计算、物联网、5G等新兴信息技术发展和推动传统产业数字化转型的重要底座。在数据中心各类硬件设施中,服务器居于核心地位,服务器是处理各类业务负载的主要载体,服务器通过CPU、内存及IO部件开展计算服务,并通过调度网卡及存储设备实现上层业务处理需求。
近年来,数据中心数据处理量呈现爆发式增长态势。与此同时,移动端设备的快速发展使得数据中心业务接入呈现出多点化特征,大量泛在的数据处理请求对数据中心服务器的运算速度、读写速度、IO性能、Web性能、能效、可用性、可靠性及可拓展性提出了更高的要求。随着各行业用户对数据中心应用度的提升,数据中心应用场景趋于多样化,数据中心需要根据不同应用场景为用户提供差异化服务。传统的服务器采用统一的物理资源配置,其物理资源供给与业务负载的资源需求存在一定的不匹配性,硬件资源浪费情况严重。此外,传统服务器在一些特殊环境中,如工作环境较为恶劣的边缘环境中难以部署,这些因素使得传统服务器越来越难以满足数据中心运营需求。定制化服务器能够根据应用场景及负载请求特征进行部署及配置,在提升数据中心服务质量方面具有更加广阔的应用前景。
定制化服务器的发展与数据中心市场需求变化有着密不可分的关系,数据中心市场需求变化主要体现在能效、服务品质及应用环境等方面,这类外部需求变化对数据中心服务器能效、性能及环境适应性也产生了新的需求(见图1)。
在能源消耗方面,数据中心能耗问题日益凸显,各级政府纷纷出台较为严格的数据中心能耗限制性政策。服务器作为数据中心的主要负载处理设备,其能耗占比相对较高。尤其是在大型、超大型数据中心中,服务器数量高达十万台甚至百万台,服务器节能设计对整个数据中心的能效优化自然不言而喻。传统服务器为了适应多种业务处理需求,更加关注性能的均衡设计和服务的可拓展性,在成本和节能设计方面存在诸多不足,难以适应新形势下数据中心日益增长的节能需求。定制化服务器则能够通过组件共享、接口整合及硬件按需配置等方式更好地实现节能需求。除此之外,定制化服务器还能够从密度、重量及制冷等方面进行设计优化,降低服务器制造成本和运行成本[1]。
图1 数据中心新需求对服务器的影响
在功能性能方面,早期数据中心主要是由企业自建并处理自身业务,数据处理量相对较少、应用场景单一,标准化的通用服务器足以胜任。随着云计算、物联网、AI、AR/VR等新型互联网应用的快速涌现,数据中心需要处理的负载呈现出多样化特征,不同业务负载对服务器硬件资源需求有所不同。传统服务器软硬件资源配置相对固定,无法根据业务负载对资源的需求进行灵活配置,这使得传统服务器供给与业务资源需求的不匹配性逐渐显现,物理资源富余会造成不必要的电能损耗,而资源供给不足则会产生资源瓶颈,降低数据中心业务处理质量,造成SLA违例。定制化服务器能够根据业务需要配置相应的软硬件资源,在处理特定业务负载时具有更优良的性能表现。
在应用环境方面,边缘数据中心成为构建各行业泛在网络的重要一环,能够在靠近数据源端向用户提供更及时的计算及存储服务,避免了近端设备与云端算力设施数据交互产生的时延,边缘数据中心服务场景时延通常是毫秒级的,这极大提升了数据处理的时效性[2]。边缘数据中心通常建设在无线基站、楼顶、仓库、车间等较为恶劣的环境中,受空间限制,供电及制冷保障也多有不足,这使其对服务器的环境适应性要求相对较高。传统服务器主要针对标准机房环境设计,难以适应恶劣的边缘环境,定制化服务器能够通过服务器外观、材质及结构的设计使服务器硬件规格满足部署要求,并能够进一步提升服务器耐高温、耐腐蚀及抗潮湿性能,满足边缘应用场景。
定制化服务器是为了满足用户在特定业务或环境方面的要求,经过针对性设计、部件选型及系统优化后生产的服务器[3]。定制化服务器主要在服务器能效、性能及环境适应性方面做出改进,服务器的定制化设计可从以下方面展开。
数据中心业务规模增长和复杂度提高使得内部服务器规模快速扩张,服务器占用的空间在不断提升。同时,服务器自身处理业务负载以及为维护服务器正常运行而产生的风扇、电源等基础组件能耗也在日益增长。考虑到资源利用及节能需求,服务器在定制化过程中通常可以采用共享组件的方式提升空间资源的利用率,从而降低能耗,如将多个服务器节点置于一个机箱框架下、多个服务器共享风扇及电源组件等。以市面上一款充分利用共享组件设计的服务器为例,它通过共享组件能够在4U空间内集成8台1U服务器或4台2U服务器,并实现电源及风扇的共享使用,较传统机架服务器部署密度提升1倍,能耗降低10%,同时建造成本也下降了20%。
为了进一步提升服务器内部线路及空间资源的利用率,服务器定制化过程中可以将一些常用的接口,如对USB、VGA等进行集成整合,形成统一的标准化接口[4]。
不同数据中心面向的用户群体不同,这导致其承担的业务负载有所差异。互联网数据中心单一业务规模较大,数据中心服务器可以按照单一应用来深度定制,例如电子商务公司可以针对用户交互业务深度定制Web服务器。运营商数据中心面临的业务则较为分散,运营商数据中心需要同时处理人工智能、Web、视频等多种类型的应用服务,在这种情况下,数据中心需要面向不同应用部署相应的定制化服务器。
在服务器定制化过程中,数据中心可以根据业务对资源的需求及服务级别协议的要求对服务器CPU、内存、IO、网卡及硬盘等部件进行针对性的配置,适度减少利用率较低的硬件资源,增加业务负载需求量较大的资源,既需防止资源的过度配置,同时也要避免某些资源配置不足造成资源瓶颈。
在外部政策及企业内部控制制度制约下,数据中心会产生某些特定的运维管理需求,这类需求实际上形成了对服务器原有功能的拓展,部分拓展功能的实现需要定制化的软件及硬件支持。例如,不少数据中心用户希望实现对服务器的远程管理,以此进一步降低数据中心运营管理成本、提升运营效率。在恶劣天气、疫情等不良的外部环境下,服务器远程管理功能能够降低运维人员外出工作的安全风险。为了满足这种特定的功能需求,定制化服务器可以进一步开放智能平台管理接口(Intelligent Platform Management Interface,IPMI),部署相应的远程管理工具,同时根据软件功能需求对底层硬件进行定制,如基板管理控制器(Baseboard Management Controller,BMC)的定制等。
数据中心服务器可以按照机房环境进行定制,也可以按照应用负载的差异性进行定制。按照机房环境定制主要考虑到服务器的尺寸,以及服务器对环境温度、湿度等要素的适应性。按照应用负载的差异性进行定制则主要考虑到服务器硬件的资源供给与业务负载资源需求是否匹配。根据业务负载对资源需求的差异可以将业务负载分为IO密集型、计算密集型和存储密集型业务等不同类型,依此开展服务器的差异化定制。本文根据业务负载特点研究了Web服务器、AI服务器、分布式存储服务器和冷数据存储服务器4类典型定制化服务器。
Web服务器可以满足大量用户的交互式访问需求,在电子商务、门户网站以及搜索引擎等企业业务模式中多有应用。Web服务器可以分为两种类型,一种是代理模式,在该模式中,Web服务器负责接收用户请求并将请求转发给应用程序服务器。Web代理缓存能够有效缓解Web服务瓶颈,减少用户检索延迟,在大型Web代理服务器中,磁盘IO性能是限制代理服务器服务能力增长的主要障碍[5]。另一种Web服务器自身安装有相应的应用处理程序,能够完成对用户请求的处理。
Web服务器对磁盘IO及内存要求相对较高,在Web服务器配置过程中可以采用具有更大磁盘IO能力的SSD硬盘或外挂磁盘阵列。
随着AI应用场景的丰富以及深度学习算法的持续迭代,AI算力需求不断提升,定制化AI服务器逐渐成为服务器市场发展的主流。与传统以CPU芯片为核心的服务器不同,AI服务器必须辅以GPU等人工智能芯片,以完成大量数据的训练和迭代。在人工智能训练中,CPU芯片兼顾了计算和控制功能,在处理复杂计算任务时性能优异,但是在面对大量的、彼此之间缺乏相关性的人工智能计算任务时表现较差,GPU芯片将更多资源用于计算,控制单位较少,在处理人工智能训练任务时具有更好的表现[6]。现代人工智能芯片多以“CPU+GPU”架构为主,CPU负责总体协调与结果汇总,GPU完成并行计算。除了GPU芯片外,FPGA和ASIC芯片在AI服务器中也多有应用,FPGA芯片通过将门电路与存储芯片集成实现了硬件固定,使用者可以在FPGA芯片上进行软件编程,这使其能够更好地处理特定任务。ASIC芯片通常是为特定用途或应用而设计,算法和功能完全固定,且固定以后无法更改,ASIC芯片在时延及功耗方面均具有优势,但其设计成本较高,需量产来降低成本[7]。
AI服务器的定制重点是对AI芯片的定制,数据中心运营方需要根据市场需求、负载特征、成本等要素选择适合的AI芯片组合。AI应用对运算速度要求相对较高,AI服务器可以通过支持PCIe及NUMA节点配置提升CPU、GPU及NIC之间的通信带宽,降低时延。除了芯片内部通信外,AI服务器还可以通过支持GDS(GPU Direct to Storage)、GDR(GPU Direct to RDMA)技术实现节点之间的高带宽、低时延通信,从而极大提升AI训练效率。
分布式存储服务器主要用于支持以文件、块及对象等形式存储的各类应用数据,数据可以跨多个独立设备分发,存储服务器可以共享存储负载,系统可用性、访问效率、拓展性都会得到极大地提升[8]。该类服务器通常采用虚拟化软件实现对存储资源的池化管理,进而实现对分布式存储资源的高效利用。
分布式存储服务器需要具备一定的存储能力,可以配置一定数量的SATA企业级硬盘,为了防止单节点故障造成的数据损失,单节点硬盘数量不宜过大。在数据存储类型上,分布式存储服务器中通常会存放访问频率较高的热数据,因此还需要按需配置读写速度更快的SSD盘及加速器件,提升访问效率。为了提升数据传输效率,分布式存储服务器还需要配置大带宽网口。
尽管全球数据总量较大,但是其中有大量数据使用频率较低,被访问次数较少,为了减少这些冷数据对数据中心算力资源的占用,通常情况下可以将这些数据存储到远端冷数据存储服务器。
冷数据存储服务器需要具备存储海量非热点数据的能力,因此通常需要配置大量硬盘,硬盘性能要求无需太高。冷数据被访问频率相对较低,对CPU性能要求不高,因此可以配置一些中低端CPU。在数据存储类型上,冷数据存储服务器中存储的数据主要以文件数据为主,这些数据被访问时对带宽需求较大,因此需要配置带宽较大的千兆或万兆网口。
近年来,不少头部互联网公司选择绕开服务器及芯片生产厂商,自行设计服务器及芯片,满足自身的业务需求,提升业务处理效率。2011年,Facebook推出 “开放计算”(Open Compute Project,OCP)硬件开源项目,该项目旨在共享高效节能的数据中心硬件设计信息及技术参数,包括机柜、服务器、存储及网络等硬件设备的设计规范以及云端硬件的管理规范,服务器硬件规范的设计及共享是该项目的重点。目前,OCP组织已经针对Web、数据库、大数据、图片视频及搜索业务推出了5款不同类型的定制化服务器设计规范,这些定制化服务器的推出提升了数据中心在处理特定业务领域的性能[9]。
除了OCP项目外,我国开放数据中心委员会(ODCC)也在积极推动服务器定制化项目建设,先后发起成立了多个定制化服务器的开源项目。如中国移动等运营商为适应电信网络向NFV场景转型和布局边缘计算新兴领域,在ODCC发起成立了OTII项目,联合产业力量探索统一规范的定制化边缘服务器[10],OTII服务器为适应狭小的边缘环境,深度不到普通机柜深度的一半,同时还进行了耐高温、耐腐蚀、抗潮湿等技术升级。为推动我国云数据中心硬件标准化,阿里巴巴发起COCI服务器项目,与通用服务器不同,COCI云服务器采用前出线架构设计,架构演进能力和服务器维护效率都将得到明显提升。
定制化服务器可以分为单机定制化服务器和整机柜定制服务器,互联网公司早期实践大多以单机定制化为主,随着定制化服务器部署规模的快速提升,服务器运输、上架、布线等中间环节大大降低了服务器的交付效率,同时业务类型的增加使得定制化服务器运维管理变得复杂,单机定制化发展受到阻碍。整机柜服务器在空间密度、能效及部署效率上较传统服务器能够表现出更加优良的特性[11]。基于整机柜服务器的诸多优势,国内外头部互联网企业积极开展“整机柜定制化”的探索,例如阿里巴巴、腾讯、百度等互联网企业依托ODCC共同研制了“天蝎”整机柜服务器,目前已升级到4.0版本,可兼容21英寸/19英寸服务器规格,支持12 V/48 V集中供电,能够实现定制化服务器的规模化部署和运营。
互联网企业及行业组织在定制化服务器领域的诸多项目实践给服务器厂商带来了巨大的压力,不少服务器厂商纷纷走向与互联网企业联合发展的道路,通过参与硬件定制化组织积极和互联网企业进行沟通,了解互联网企业对服务器的性能需求,积极应对服务器市场变局。早在Facebook发起OCP项目时,惠普公司就意识到了该项目对传统服务器产业带来的冲击,为了应对这种市场冲击,惠普公司先后推出了Moonshot(登月)计划和Odyssey(奥德赛)计划,登月计划充分关注数据中心对低功耗服务器的需求,基于软件定义服务器的设计理念,打造面向不同负载需求的低功耗服务器;奥德赛计划则致力于将UNIX系统与x86运算架构整合到统一平台,以应对数据中心服务器对x86平台的需求。
服务器定制化已经成为行业发展的必然需求,越来越多的传统服务器厂商开始进入到定制化服务器设计及生产的浪潮,利用自身的产品线及渠道优势打造满足数据中心需求的定制化服务器。为满足数据中心服务器的能效需求,服务器厂商在散热、存储等方面积极开展节能创新设计。例如,在散热方面,IBM通过引入双段式对转风扇进行节能,AMAX公司开发的XP-22201BD型服务器采用先进的高流速空气冷却或液体冷却技术为CPU、内存及电压调节稳定器进行冷却,进一步降低了制冷能耗;在存储方面,2.5英寸HDD小硬盘在节能方面较3.5英寸硬盘节能效果更好,与此同时,SSD硬盘的节能效果也得到凸显。
芯片是服务器的核心部件,芯片的性能将会直接影响到服务器业务执行的效率和可靠性,在定制化服务器大规模发展的进程中,芯片厂商也在积极开展战略变革。英特尔公司正在加强与服务器厂商及数据中心运营方的合作,通过整合其原有标准处理器与专为客户定制的处理器来满足用户的特定业务需求。IBM为了增强其在定制化芯片市场的竞争力,向外界开放了Power芯片架构,第三方企业能够根据自身需要在该芯片上进行改进,ARM则是将其核心芯片设计授权给高迪、Applied Micro和苹果等第三方公司,由经过授权的第三方公司实现芯片的定制化设计[12]。
数据中心变革引起的服务器能效、性能及环境适应性等方面的新需求推动了服务器的定制化发展,定制化服务器削弱了传统服务器的通用性,强化了服务器在特定机房环境及应用负载下的专业性,这极大提升了其在特定环境及业务负载下的性能表现。服务器定制化可以通过共享组件、整合结构、按需配置部件及按需定制软硬件等方式来展开,常见的定制化服务器包括Web服务器、AI服务器、分布式存储服务器及冷数据存储服务器等,不同的定制化服务器需要结合负载特点配置相应的芯片、硬盘及网卡,提升服务器硬件资源供给与业务负载资源需求的匹配性。在定制化服务器发展过程中,互联网企业已经成为推动定制化服务器发展的重要引擎,头部互联网企业及行业组织通过合作共享方式设计开发适应特定环境及负载的定制化服务器,服务器厂商也在积极寻求与互联网企业的合作,通过加强与数据中心运营方的沟通进一步创新推出高效能服务器及相关部件,芯片厂商通过定制与开放芯片架构方式开发出符合用户需求的定制化芯片,成为推动定制化服务器发展的重要力量。