申 佳,童俊杰,韩振东,胡 祎(.中讯邮电咨询设计院有限公司郑州分公司,河南郑州 450007;.中国联合网络通信集团有限公司,北京 00033)
5G作为重要的信息基础设施,在全球得到了广泛的发展。据GSA 统计,截至2021 年4 月,全球已有68个国家的162 个运营商推出5G 服务。5G 商用部署速度超过以往任何一代移动通信技术。随着5G 的快速商用部署,通信云作为全面支撑4G∕5G核心网、创新型业务平台、管理平台等网络云化部署需求的基础设施,如何在保证网络及数据的安全可靠性的同时又能灵活部署,是当前运营商的重大课题之一。
研究通信云存储容灾技术是为了平衡网络运营成本和网络服务质量,同时也是在核心网虚拟化后,对新型网络安全可靠性的探索。与此同时,对运营商网络安全和健壮性的考量也不能仅局限于网元是否具备相应容灾功能,而应该对网络整体进行综合能力评估,其中可能包括对网络整体短板的判断、对网络冲击的防御机制、对虚拟化网络硬件层和虚拟层的容灾能力评估以及对其他异常场景的模拟和预判等[1]。
由于业务种类比较多,虚拟化的通信网元部署复杂,存储数据类型不同,本文将从运营商的业务分类入手,分析通信云的存储容灾部署方案。
根据硬件部署形态,存储设备可以划分为集中式存储与分布式存储2类。
2.1.1 集中式存储
以磁盘阵列设备作为资源池中集中式的存储设备,通过存储网络(SAN)向主机提供存储容量,其主要组件如下。
a)控制器:包含CPU、内存、接口卡、前后端接口(前端接口和交换机连接,后端接口和盘框连接)。
b)盘框(硬盘):主要存储设备,磁盘阵列设备提供机械硬盘(HDD)或固态硬盘(SSD)槽位,盘框通过NL-SAS、SAS等接口类型与控制器连接。
集中式存储组网形态如图1所示。
图1 集中式存储组网形态
2.1.2 分布式存储
分布式存储基于服务器集群构建,存储服务器节点之间通过网络连接形成存储资源池,其组网形态如图2所示。
图2 分布式存储组网形态
2.2.1 集中式存储
集中式存储的可靠性机制如下。
a)端到端冗余:在前端接口、控制器、电源、内部链接上通过多路径实现冗余,确保任意部件发生故障业务不中断。
b)数据保护:独立磁盘冗余阵列(Redundant Array of Independent Disks,RAID)通过条带(RAID 0)、镜像(RAID 1)、校验计算(RAID 5∕RAID 6∕RAID TP)等多种技术,把多块独立的硬盘(物理硬盘)按不同的方式组合起来形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和数据备份技术。
2.2.2 分布式存储
分布式存储硬件由通用服务器和通用网络设备构成,其可靠性保障机制如下。
a)设备冗余:多网络设备、多链路、多存储节点冗余,确保任意部件发生故障业务不中断,数据在系统内不同存储节点上均衡分布从而保障节点间负载均衡。
b)数据保护:通过多副本技术或校验码技术进行数据的冗余备份。
2.2.3 多存储系统间容灾手段
存储双活方案包括2 套存储系统,提供实时数据备份。1台主机可同时访问2个副本,任意副本故障不影响业务。2 套存储可独立部署存储层双活方案,也可以结合上层应用(包括网络层)的双活设计,形成数据中心双活解决方案。
存储双活方案关键技术指标如下。
a)数据恢复点目标(Recovery point objective,RPO):主要指的是业务系统所能容忍的数据丢失量。
b)恢复时间目标(Recovery time objective,RTO),是指通信云业务网元所能容忍的业务系统停止服务的最长时间,也就是灾难发生到业务系统恢复服务功能所需要的最短时间。
运营商根据不同技术指标要求,可制定不同容灾方案。技术指标及相应方案如表1 所示,不同容灾手段组网方式如图3所示。
图3 多存储系统间容灾手段
表1 通信云业务网元分类
传统的电信设备以专用的硬件为主,在专有平台架构下,各硬件设备彼此独立,近年来,软件化、云化部署的产品逐步商用,运营商逐步进行了业务系统的云化,将云化范围从平台类应用扩展到通信网元,如UDM、AMF、SMF 等,以某厂商网元配置情况为例,各网元与外部存储关系分析如下。
a)5GC计费单元:CG话单使用外部存储,且跨DC有业务主备容灾,当外部存储断链,CG 会拒绝接收话单,从而使话单可以在前端网元存储一段时间。SMF∕GW 会尝试接入备份CG(网元级容灾),若备份CG 与外部存储一样断链,且SMF∕GW 与外部存储链接正常,则可以将话单缓存在外部存储一段时间,若SMF∕GW与外部存储同时断掉,则只能存在计算节点本地内存(空间很小,仅能存储分钟级),超过内存空间后只能丢弃。
b)EMS∕MANO:操作系统和运行数据都保存在本地硬盘,当外部存储断链后,只要VNF 的虚机不重启,业务不会中断,但是写硬盘的操作会失败(包括日志、性能统计、配置、告警等)。
c)核心网控制面VNF(AMF、SMF、NRF 等):数据库和操作系统都是保存在内存中的,当外部存储断链后,只要VNF 的虚机不重启,业务不会中断,但是写硬盘的操作会失败(主要是日志)。
d)核心网数据面VNF(UDM、PCF 等):具备DC 内和跨DC 容灾,单台存储设备故障,启动DC 内容灾,单DC内存储全部故障,启用跨DC容灾。
e)5G 消息:如果Guest OS 使用的外部存储失效,会影响虚机正常运行。如果APP 的数据盘失效,可以按3 种不同模块场景进行分析:核心业务模块如AS 的业务处理模块等,其数据盘故障可以不中断当前业务,但会造成计费、日志等数据丢失;核心数据模块如FS 的业务处理模块、计费服务器等,数据盘失效会影响当前业务;业务日志模块与上述核心数据模块类似,只是数据盘失效时,对实时业务和数据影响较小。
f)炫铃平台:具体模块不同,受到的影响也不同,例如数据库或铃音服务器所用云盘异常时,呼叫接续不受影响,只是个性化设置的铃音无法播放,但是炫铃系统的保护音会正常播放;SCP∕SIPPROXY 模块部分异常时,在SCP∕SIPPROXY 设置的流控范围内的呼叫可正常处理,超出范围的呼叫会被拒绝,返回503错误,让核心网放通,保证不影响呼叫接续。
根据网元对外部存储的依赖关系,可以将通信云业务网元分为以下2 类(2 类网元均可能有告警、日志等数据需要外部存储)。
a)有状态网元:业务数据需要保存到外部存储上,主要存储数据为用户静态数据,数据不能丢失。
b)无状态网元:业务数据不需要保存到外部存储上,或保存在外部存储上的数据主要为业务动态数据,在外部存储失效时,无状态网元可通过存储旁路功能保障业务不中断。
根据业务应用重要程度可以将容灾情况分为DC内和DC 间容灾2种。通信云网元据此进行分类,如表2所示。
表2 通信云业务网元分类
运营商可以根据不同网元对存储的依赖关系以及网元自身应用层双活部署情况,与应用层容灾协同,对不同的网元采用不同的存储层容灾手段,为通信云提供网络运营成本与网络安全可靠性相对平衡的容灾解决方案。
具体技术方案如下。
a)业务网元无任何DC 内∕间容灾(单DC 单节点部署):部署单DC 内存储双活,应用侧数据双写在不同存储设备上,单台故障时,应用侧自行切换。存储启用主备∕双活。故障时存储自动切换及恢复过程如图4所示。
图4 单DC内单节点双活示意图
b)业务网元单DC 内有容灾(单DC 双节点部署):双节点挂载不同存储设备,形成A∕B 双平面,主要通过应用侧容灾进行业务切换,存储故障进行DC 内双节点业务切换,可避免单存储失效导致整个业务宕机。故障时存储自动切换及恢复过程如图5所示。
图5 单DC内双节点部署示意图
c)业务网元跨DC 部署且应用层有容灾手段(双DC 双节点部署):建议主要依靠上层应用做相应数据同步及容灾切换,跨DC 的存储双活对于链路延迟要求较高,如时延允许(双DC 距离<100 km)可以考虑双活或远程复制。
通信云资源池存储容灾与网络部署架构以及不同网元特性密切相关,不同组网不同网元对应有不同的容灾方案。国际标准对网元容灾方案及实现流程没有详细规定,各个厂家实现方式、机制及流程有较多不同,这就给运营商部署带来很大挑战。如何既能满足5G商用部署要求及策略,又能满足各种异厂家组合场景下的存储容灾备份需求,是网络部署中的难题之一。
另一方面,5G 网络引入了服务化架构、计算与存储分离、控制面和用户面分离等新技术架构,运营商需要综合考虑并利用新技术实现容灾,而不仅仅依靠某一层设备或者某一种技术。
总之,通信云存储容灾技术面临的困难与问题比想象的要多,运营商在后期的部署与运营阶段还会遇到各种问题,这也是后续研究的重点。