基于新型云化电信网络的服务器测试方法研究

2018-05-22 01:17穆琙博中国信息通信研究院技术与标准研究所工程师
信息通信技术与政策 2018年5期
关键词:云化网卡服务器

穆琙博 中国信息通信研究院技术与标准研究所工程师

张宇华 中国信息通信研究院技术与标准研究所工程师

刘芷若 中国信息通信研究院技术与标准研究所助理工程师

1 引言

在ICT技术深度融合发展的大背景下,电信网络重构已经进入到加速落地的变革“深水区”,加快建设“SDN/NFV技术支撑的云化网络”成为行业发展的重要共识。从运营商网络演进的远期目标来看,实现物理硬件、虚拟化平台和上层业务3层解耦的新型网络架构能够有效降低产业运维成本、激发产业创新活力、加快业务上线速率、提升新型云化电信网络的服务能力,在这样的网络架构中,提供主要物理承载功能的物理服务器,将发挥至关重要的作用。

(1)云化架构的物理功能承载

在功能承载方面,服务于新型云化电信网络的物理服务器不仅需要向虚拟化平台提供基础的物理资源,如计算资源、存储资源、网络资源,还需要根据虚拟化平台和上层业务的应用需求进行功能适配。

(2)云化系统的重要性能指标

在性能评测方面,服务器各主要功能组件的性能指标,如网卡吞吐量、CPU浮点计算速度、内存读写速度等,与上层业务的响应处理要求紧密相关。由于这些指标直接反映了云化系统能够达到的能力上限,服务器的性能指标成为评测整体系统性能能力的重要组成部分。

(3)云化体系的安全可靠基础

在安全可靠方面,服务于新型云化电信网络的服务器是保证云化体系安全的最小单元:一方面,服务器在系统安全方面的相关设置,如各种访问方式的密码管理机制,为整体系统的安全管理奠定了物理基础;另一方面,服务器各功能组件采用的高可用机制,如冗余和备份机制,直接决定了云化体系在物理层面的可靠程度。

(4)云化环境的重要能耗体现

在能耗方面,由于能耗问题是建设云化环境必须考虑的先决条件之一,服务器作为云化环境当中最主要的物理硬件,在整体环境的能耗当中占据了较大的比例。这一点对于云化环境的设备选型落实、系统规划实施以及后续的系统运维管理都有巨大的影响。

随着云化电信网络的快速落地,当前针对新型云化电信网络的测试评估工作开始成为业界关注的新热点。然而从实际已开展的测试活动来看,现阶段的测试工作仍然聚焦于评测虚拟化网元与现网物理网元之间的能力差异,对物理服务器的测试研究严重滞后。一方面由于CT行业对技术的快速演进准备不足,尚未完全认识到物理服务器在新型云化网络当中的重要作用;另一方面,现有的部门管理结构严重滞后于技术发展的需求,IT和CT部门的严格划分已经成为开展融合式测试研究工作的另一个主要的结构障碍。

本文将从服务器在IT应用场景和云化电信网络场景的部署差异出发,归纳新型云化电信网络场景下测试物理服务器功能/性能能力的测试思路;同时,聚焦于场景的架构特征,分析电信云基础设施对物理服务器的技术能力要求,探讨如何形成符合技术发展特点的服务器测试方法体系。

2 服务器测试的总体分析

2.1 ICT场景需求差异与测试思路分析

物理服务器作为典型的IT基础设施资源,传统上从设备的建设部署到运行维护,一直遵循IT行业的技术要求——快速响应、廉价、可替换。这是由于传统的IT业务遵循了IT产业技术发展的核心指导思想——“重应用,轻基础”:上层业务的服务质量主要依赖于应用层自身的性能调优,物理服务器只需要提供CPU、内存、I/O读写等基本功能,与业务的服务质量不直接关联;在传统的电信网络环境下,运营商采购的物理服务器主要服务于计费、管理等IT支撑类业务,因此对于物理服务器传统电信行业并没有提出区别于IT产业的技术能力要求。

随着IT技术自身的快速发展,以服务器为统一物理基础设施的IT云化系统由于能够增强物理资源的利用率,提高业务上线效率和分发速率,在各个场景得到了大量的应用。尽管每一个云化系统都需要部署大量的物理服务器,然而典型的IT云化系统并未对此提出严格的技术指标要求。一方面是由于从技术架构角度,以服务于云化应用为导向的IT云化系统延续了“重应用,轻基础”的技术指导思想,其云化基础设施主要通过对各种物理资源(计算资源、存储资源和网络资源)进行堆叠而形成;另一方面,聚焦于终端用户体验的IT云化应用,其服务质量仍然严重依赖于云化平台在资源承载方面的冗余设计以及服务管理方面的弹性机制,云化系统缺少系统性的服务能力要求。

以SDN/NFV技术为支撑的新型云化电信网络,融合了SDN/NFV技术、云计算技术、分布式存储技术等ICT前沿技术,通过控制与转发相分离和三层解耦,在以服务器为代表的通用物理基础设施之上,构建出虚拟化的资源平面;同时,借助这张平面上具有的资源管理能力和可扩展能力,提升了整体电信运营网络的业务创新能力。新型电信云化网络继承了IT云化系统开放式网络架构设计,使用通用的物理服务器替代了承载传统网元功能的“黑盒子”,从根本上改变了现有网元的结构形态;另一方面,与典型的IT云化系统相比,新型云化电信网络还要求继承电信级服务水平的服务质量要求,从安全可靠和可管理的角度出发,对承载电信业务的云化基础设施提出了严格的技术能力要求。其中,物理服务器作为提供主要物理承载功能的基础设施,必将成为评估新型电信云化网络整体能力水平的重要组成部分。

在新型云化电信网络的环境中开展服务器测试,需要首先分析应用场景对服务器的技术能力要求,同时,结合传统IT服务器的测试方法,共同构建出符合场景技术能力要求的物理服务器测试方法。

2.2 云化电信网络对服务器的能力要求

作为IT云化系统和电信网络技术融合发展的产物,新型云化电信网络一方面从架构上构建出统一的虚拟化网络平面,并在此基础上,尽可能提高网络平面的弹性和可扩展能力;另一方面,新型云化电信网络还需要在安全可靠和可管理这两个方面满足电信级服务水平的能力要求。在这种场景特征下,负责提供主要物理承载功能的服务器,首先需要在功能和性能方面满足虚拟化层的技术能力要求;同时,还需要对整体网络平面的可扩展性、安全可靠能力和可管理能力进行物理资源层面的能力支撑(见图1)。

图1 云化电信网络场景对服务器的技术能力要求

(1)通用化

从网元形态上看,服务器通用化是云化电信网络区别于传统电信网络的关键点之一。基于统一物理架构之上形成的云化网络平面,通过软硬件解耦,改变了传统网元一体化的封闭架构,有效增强了网络服务能力的弹性,提高了整张网络平面的可扩展性和资源利用率。

考虑到不同类型的电信业务对于依赖资源存在差异化的需求,从实际的场景应用出发,物理服务器也需要对不同的物理资源进行区别化设计。根据2017年SDNFV产业联盟发布的《NFV技术白皮书V1.0》,当前业界将适配于云化电信业务场景的通用服务器归纳为计算处理类服务器、网络转发类服务器和数据存储类服务器3种类型,并针对各自的资源特点进行了不同程度的功能细化。其中,计算处理类服务器对CPU、内存的配置要求较高,网络转发类服务器对网卡的配置要求较高,数据存储类服务器对硬盘存储配置要求较高。未来,在云化电信网络场景下,针对3种资源集中的网络业务(计算密集型业务、网络密集型业务和存储密集型业务)需求,物理服务器将会形成各自的通用基准能力,为场景提供更加完备的通用化物理基础实施。

(2)功能/性能要求

从业务承载的角度出发,典型的IT云化系统着重强调物理服务器在计算子单元方面的处理能力,对于存储子单元和网络子单元,通常需要在服务器的架构方面聚焦于计算子单元的能力需求进行有针对性的设计;而在新型电信云化网络场景下,网络子单元作为上层云化业务的直接承载者,是物理服务器在功能/性能要求方面的首要关注点,如服务器是否引入网络加速卡、服务器的端口数量/端口速率能否支撑电信级服务水平的业务需求;另一方面,服务器的计算子单元和存储子单元在满足云化网络业务对于计算能力和存储能力的基本要求之外,还需要围绕网络子单元的需求展开设计,如CPU要求支持DPDK、SR-IOV、VT-d等虚拟化的网络加速手段。

(3)可管理

云化电信网络强化了对服务器管理接口的能力要求:在接口协议方面,云化电信网络场景要求物理服务器不仅能够对当前主流的接口管理协议进行支持,如IPMI、SNMP、Syslog,还需要预留端口能力对新的接口管理协议进行能力扩展,如Redfish协议;在信息管理方面,云化电信网络场景强调建设物理基础设施管理平台(PIM平台),通过接口协议全面管理服务器的各项基本信息,如状态监控信息、硬件告警信息等。因此,物理服务器需要以此为基础,按照管理接口的协议要求,建立对应的管理信息模型,支撑PIM平台的技术能力要求。

(4)安全可靠

安全可靠是提供电信级服务水平的重要维度,其中“5个9”的高可靠性需要服务器采用冗余设计和备份机制等高可用方式,从辅助配件(如风扇)到核心组件(如CPU、硬盘、电源)满足相应的能力要求;另一方面,作为新型云化电信网络最重要的物理基础设施,物理服务器需要在系统安全方面进行加固,提高服务器管理接口的安全等级,从物理基础设施层面保障整体云化系统的安全能力。

3 服务器测试方法体系的构建

在云化电信网络场景下构建服务器的测试指标体系,需要结合典型IT云化基础设施的测试方法,按照云化电信网络场景对物理服务器4个方面的技术能力要求:基本功能/性能、管理接口、可靠性、安全,分别建立对应的测试指标,形成符合场景特征的测试方法体系(见图2)。

3.1 基本功能支持

服务器的基本功能主要关注服务器能否从物理资源的角度出发,向虚拟化平台提供各种基础的物理资源(计算资源、存储资源和网络资源)。同时,评测服务器能否针对虚拟化平台和上层业务的应用需求,进行相应的功能设置。对服务器基本功能要求开展测试,需要结合云化电信网络场景对硬件服务器的功能要求,从服务器基本配置要求、服务器固件升级/回退支持以及服务器网卡功能要求3个方面入手,分别分析:

(1)服务器基本配置要求

服务器基本配置主要从BIOS能力支持、PXE能力支持、RAID卡能力支持3个维度入手,重点关注物理服务器的基本物理配置能否满足上层虚拟化的能力要求。

●BIOS能力支持:测试BIOS启动模式能否支撑UEFI和Legacy两种典型模式;同时,关注BIOS能否支持超线程、VT-x、VT-d等CPU虚拟化方面的能力设置,以及PXE、SR-IOV、DPDK等网卡加速方面的能力设置。

图2 云化电信网络场景服务器测试方法体系

●PXE能力支持:测试服务器能否正常开关物理网卡的PXE启动。

●RAID卡能力支持:测试服务器能否支持针对特定的RAID设置需求,按照部署相关的应用驱动。

(2)服务器固件升级/回退支持

固件升级/回退是云化电信网络场景当中开展运维管理的重要关注点,通过验证物理服务器各主要部件(CPU、主板、网卡等部件)对于版本升级/版本回退的支持,保证物理服务器能够满足运维管理的能力要求。固件升级/回退测试可以从带内和带外两种方式开展测试评估。

●带内批量升级/回退:测试服务器各主要部件,包括BIOS、BMC、网卡、硬盘能够在不影响承载OS的基础上,使用带内方式对固件版本进行升级/回退操作。

●带外批量升级/回退:测试服务器各主要部件,包括BIOS、BMC、网卡、硬盘能够在不影响承载OS的基础上,使用带外方式对固件版本进行升级/回退操作。

(3)服务器网卡功能要求

服务器网卡作为云化电信网络场景当中最重要的物理接口,其功能要求需要能够满足上层云化应用对物理网络转发的能力要求。考虑到当前主流的物理服务器接口能力均为每端口1~10Gb,技术指标方面无法匹配云化电信业务对于接口网络吞吐的能力要求(10~100Gb),因此是否支持链路聚合和不同端口绑定模式已经成为云化电信网络场景下物理网卡最重要的能力要求。

●绑定模式1:测试服务器的物理网卡能否支持Bond模式1。

●绑定模式6:测试服务器的物理网卡能否支持Bond模式6。

3.2 性能能力要求

服务器的性能能力主要从业务处理的角度出发,聚焦物理服务器各主要功能组件能否满足上层业务的应用需求。对服务器的性能能力进行评测,需要结合传统IT系统对服务器的测试评估指标,关注基本功能组件的处理能力,从物理网卡、内存、硬盘等维度入手,开展评测工作,同时还需要重点关注云化电信网络场景下网卡绑定模式的性能处理能力。

(1)网卡性能

网卡性能评测需要结合传统云化电信网络场景对于物理端口转发能力的技术要求,按照RFC2544的字节定义,分别评测物理网卡对于各字节类型(64、128、256、512、1024、1280和1518字节)数据包的转发吞吐。

(2)内存性能

内存性能评测主要采纳传统IT系统对于服务器内存的测试方法,重点关注内存带宽(MB/s)和内核向量的响应时间这两个技术指标。

(3)硬盘性能

硬盘性能评测主要采纳传统IT系统对于服务器硬盘的测试方法,重点关注随机读写模式和顺序读写模式场景下,硬盘读写带宽和每秒I/O。

(4)网卡绑定模式的性能

针对不同的网卡绑定模式,分别测试该模式下服务器绑定网卡对于各类型数据包(64、128、256、512、1024、1280和1518字节)的转发吞吐。

3.3 管理接口能力

在云化电信网络场景下,服务于统一资源管理的物理基础设施管理平台(PIM)是场景中重要的组成部分。服务器的管理接口主要用于匹配物理基础设施管理平台(PIM),通过接口协议全面管理物理服务器的各项基本信息,如状态监控信息、硬件告警信息等。对服务器管理接口能力开展测试,可以从当前主流的管理接口协议(IPMI、SNMP、Syslog)出发,分别分析:

(1)IPMI

IPMI管理接口是当前物理服务器应用最为广泛的管理接口协议。通过IPMI管理接口,PIM管理平台可以实时监控服务器组件的运行状态和告警信息,还可以对服务器下发管理信息以及支持远程无人值守,如设置资产编号、远程开关机。对服务器IPMI管理接口进行测试,主要从功能角度出发,验证能否获取服务器各组件的状态信息,如型号、序列号等内容;另一方面,还可以从支持远程无人值守机房的角度出发,测试能否实现远程的开关机、重启操作。

(2)SNMP

区别于IPMI管理接口,SNMP管理协议定义了MIB信息模型,为支持PIM管理平台进行异厂商服务器统一管理提供了技术基础。对服务器的SNMP管理接口进行测试,测试方法类似于IPMI管理接口,都是从主流服务器当前支持的管理功能角度出发,验证服务器在管理接口方面的能力。

(3)Syslog

Syslog管理接口是当前物理服务器主流的状态信息上报协议。通过Syslog管理接口,服务器将主动上报操作日志、状态告警等方面的管理信息。对服务器Syslog管理接口进行测试,类似于IPMI管理接口测试和SNMP管理接口测试,通过模拟主要部件(CPU、内存、硬盘、风扇等)的错误状态,查看服务器能否正常上报相关告警和操作日志。

3.4 安全可靠性

服务器的安全可靠主要关注服务器能否满足电信级服务水平要求的高可靠性,即“5个9”的可靠保障能力,以及能否在系统安全方面进行加固设置,提高管理接口的安全等级,从物理基础设施层面保障整体云化系统的安全能力。对服务器安全可靠性进行测试,需要综合传统电信设备对于高可靠性的测试方法和典型IT系统对于管理接口安全性的测试方法,从服务器高可靠和管理接口安全性两个维度入手,分别分析:

(1)服务器高可靠

服务器高可靠重点强调服务器重要组件能够满足高可靠性的能力要求,即“5个9”。对服务器高可靠性进行测试,可以从供电系统、风扇、硬盘等部件入手,测试服务器的关键部件能否实现高可靠性。

(2)管理接口安全

管理接口安全主要关注于物理服务器BMC的管理接口能否进行安全加固,满足场景对物理基础设施基本的安全要求。对服务器管理接口进行安全测试,可以聚焦于BMC接口的安全能力,以BMCWeb为主要评测对象,从密钥管理、登录日志、远程IP限制等方面入手,查看该平台是否采用了安全机制。

4 服务器测试面临的挑战

在ICT融合发展的大背景下,云化电信网络进入到快速落地的发展阶段,物理服务器作为其中最重要的物理基础设施,当前已经成为业界关注的重点方向。近两年,国内外电信运营商针对云化电信网络场景组织了各种PoC验证测试和试点项目的集采测试,物理服务器作为必测项目已经成功吸引了国内外众多传统CT厂商和新型IT厂商的注意。然而,从测试整体的情况来看,现阶段云化电信网络场景下的服务器测试还面临着一些重要挑战:

(1)测试管理方面

在传统的电信网络环境下,主要服务于IT支撑类业务的物理服务器,其测试工作通常由运营商的IT支撑部门负责,从测试指标制定到技术流程要求,均已形成完整的测试管理体系。随着电信网络的云化发展,物理服务器已经成为最重要的物理基础设施,现有依托于IT测试思路形成的测试管理结构已经滞后于网络技术发展的需要。因此,电信运营商需要结合场景的技术发展需求,融合各个部门的技术优势,尽快形成新的测试管理体系。

(2)测试方法方面

现网条件下,CT类设备的测试方法注重强调业务导向性,即以不同的网络业务和网络场景为基准,要求物理基础设施能够有针对性提供的功能/性能能力支持,导致了现网场景下“烟囱林立”的设备现状;而IT类设备的测试方法则要求完全的通用性,不关注物理基础设施自身的能力/结构特点,这种“重应用,轻基础”的测试思路与电信级服务水平的能力要求相违背。在云化电信网络场景下讨论物理服务器的测试方法,需要融合这两种测试思路,按照不同的云化资源特征(计算密集型、存储密集型和网络密集型),形成各自的测试基准,完善符合场景特点的测试方法体系。

(3)测试工具方面

测试自动化是云化电信网络场景对测试工具能力的重要要求。当前,CT领域传统的两大测试仪表商纷纷加快了工具自动化和仪表虚拟化的研发进程。然而,考虑到云化电信网络场景融合了ICT技术发展的最新方向,特别是云化后的IT平台技术与现有的仪表测试能力之间存在较大的差距,这一点已经成为影响服务器测试工作的重要瓶颈。

5 结束语

当前,针对云化电信网络场景下的服务器测试工作还处于比较初级的发展阶段,从测试思路、测试方法到测试工具,业界尚未形成行之有效的整体性解决方案。未来,随着应用部署的不断深入,这项工作将吸引越来越多的技术专家参与其中,完善测试方法体系,研发测试工具,全面提升测试技术水平。

猜你喜欢
云化网卡服务器
部署Linux虚拟机出现的网络故障
通信控制服务器(CCS)维护终端的设计与实现
PowerTCP Server Tool
Server 2016网卡组合模式
5G/云化下的VR产业未来
IBM中国企业云化实践中心成立
计算机网络安全服务器入侵与防御
核心网云化技术的分析
挑战Killer网卡Realtek网游专用Dragon网卡
USB故障又一原因