胡 佳 张竣图
(中国联合网络通信有限公司广东省分公司,广东 广州 510320)
当前,中国联通的集中业务支撑系统(central Business Support System,简称CBSS)的开机流程由信控发起、经过营业、BO、全业务平台、省分竣工等几个环节组成。开机流程长且繁琐,容易出现开机指令拥堵,不能及时执行,导致用户开机缓慢。
CBSS系统缺乏紧急开机流程,一旦出现错误批量停机异常或正常流程开机异常,需要在短时间内尽快恢复开机。然而,当前系统不支持快速批量开机,导致开机业务延迟执行,严重影响用户感知。因此,有必要开发出一款高效的紧急开机体系。
通过总部能力开放平台输出各省的分侧开机能力,实现全国各省份紧急开机功能。
实现不经过CBSS系统,直通省分侧,快速在网元侧恢复用户正常业务的功能。同时也能对外提供服务能力,增强生产运营过程中的应急手段,保障系统安全。本期建设目标如图1所示。
图1 系统建设目标
部署总部天宫环境,基于天宫Pass平台开发一套紧急开机工具,该工具主要包括应用层、平台层和基础设施层三部分,其中应用层主要解决批量高并发的紧急开机问题,实现了平均万笔每秒的响应能力;平台层可以进行AI预警监控,实施监控异动情况,并作出快速处置;基础设施层主要解决二次开机问题,并具备过滤反欺诈等功能(图2)。
图2 系统架构
总体分为系统管理、紧急开机管理、紧急开机数据处理、紧急开机稽核、短信功能、定时任务模块。系统管理模块中,主要涵盖系统管理所需的基本功能,包括用户注册、忘记密码、修改密码等;紧急开机管理,包括停机用户确定及导出、申请单生成、申请单审核等;紧急开机数据处理,主要是读取号码信息,并拼接指令,调用能力开放平台接口紧急开机;紧急开机稽核,包括申请单进度、开机用户执行明细导出等;短信功能主要是将紧急开机的结果以短信的形式告知客户;除此之外还包括定时任务、大数据监控等功能(图3)。
图3 紧急开机系统功能架构
系统架构采用开源的Spring Cloud微服务架构,支持快速启动,服务调用迅速。采用redis高速缓存组件,用于维护关键用户信息,实现系统高并发和秒级响应。系统之间数据交互采用kafka消息队列,采用异步消息机制,保证系统高可用、高吞吐量。项目总体技术架构分为三个部分,即SaaS、PaaS、LaaS,从图4可以看出SaaS主要包括异常停机发现、紧急开机管理和用户状态稽核三部分;PaaS主要使用了分布式服务框架、Spring Cloud等平台工具和技术;LaaS包括计算资源池、网络资源池、存储资源池、安全设备四部分。
图4 天宫技术架构
紧急开机工具部署在天宫平台上,支持从CBSS镜像库圈定停机用户,进行紧急开机;天擎平台事先和各省分侧联调上线开机能力发送到能力开放平台,紧急开机工具调用能力开放平台的开机能力实现紧急开机(图5)。
图5 天宫平台与其他平台之间的关系
(1)停机业务量监控
通过AI平台,采集历史停机数据,进行模型训练,并最终输出动态阈值,获得停机业务在各个时点下的业务预测峰值,从而对实时停机业务数据的监控。
(2)用户停机级别模型
通过AI算法构建停机级别模型,基于高收益用户停机的占比、忠诚用户停机的占比、星级用户停机的占比、异常消费停机的占比等信息进行模型训练,输出用户停机级别模型。
(3)停机分布
绘制停机地图,按地市分块,每5分钟刷新数据,根据地市停机数据量大小,采用深浅不同颜色进行标识(图6)。
图6 停机分布示意图
开机流程由开机申请、审核员审核、确认开机、数据归档四个部分组成。具体内容如图7所示。
图7 紧急开机的基本流程
依托天眼平台,搭建展示及告警平台主要采用了信号定位及天眼显示基础,可以较为直观地看出紧急停机的数量、区域,系统会根据设定的标准,向不同的管理单元作出警示,提醒通讯企业注意紧急停机的潜在风险,为后续的管理处置奠定良好的基础(图8、9)。
图8 停机展示平台
图9 停机告示平台
(1)紧急开机用户比对:由于紧急开机操作绕过CBSS业务模块,会导致用户在网元状态和CBSS状态不一致,需要通过稽核比对发现状态差异用户。
(2)常规增量稽核:对网元中的用户状态和CBSS中的用户状态进行全网增量比对。
(3)差异状态修复:对网元和CBSS用户服务状态不一致的情况,以CBSS用户服务状态为准,对网元服务状态进行修复。
在功能模块的建设上,主要涵盖CBSS、紧急开机系统和网元三部分,其中紧急开机系统中,为了及时识别用户是否存在紧急开机,需要对用户的状态进行比较分析,分析的结果是确认紧急开机客户,也包括状态差异用户和常规稽核差异,在此基础上构造紧急开机指令。
图10 功能模块建设内容
数据类型:(1)营账类:信控停机数据、营业停机数据;(2)指令类:用户交换侧数据、指令执行数据;(3)规则类:黑白名单数据,执行结果类数据。
硬件资源:硬件资源使用天宫平台,无需额外投资。
图11 数据模型建设
组件部署:紧急开机工具部署在天宫平台,使用容器服务CKE、CCS管理应用服务,云硬盘CBS存储数据、镜像存储CCR存放镜像、虚拟私有云VPC设定隔离网络、STARSHIP管理微服务、KAFKA、REDIS、DRDS、RDS等组件作为应用组件,后期考虑使用服务网格CSM替代已有组件。
图12 硬件资源及组件部署示意图
紧急开机系统,对停开机动作有一个全流程的管控:事故发生前通过大数据进行实时的停机监控,在事故处理中,达到每分钟1W以上的真实开机能力,在事故处理完成后可以对停机原因进行分析,对处理数据进行稽核,保证CBSS侧与网元侧数据的一致性。在信息安全方面,结合互联网数据能力,实现反诈骗等高风险拦截。全套云原生的架构体系设计,实现了all in CKE的架构模式,全流程自动化,完善的监控体系,所有微服务都达到了高可用、高并发、弹性伸缩,具备完善的自我修复的能力。