面向5G消息的MaaP智能化管理功能设计

2021-11-20 13:48单丽雅赵雨田张伟强中国联通智网创新中心北京100048
邮电设计技术 2021年10期
关键词:工单运维消息

盛 煜,李 野,单丽雅,冯 毅,赵雨田,张伟强(中国联通智网创新中心,北京 100048)

1 5G消息概况

5G 消息是运营商基于富媒体通信服务(RCS)实现的传统短信业务升级,可面向用户提供增强的消息服务,包括文本、图片、音频、视频、位置、联系人(vCard)等媒体内容的发送和接收。未来将会是运营商的基础电信服务,具有极高的商用价值和战略意义。主要体现在以下3个方面。

a)5G 消息具有安全可靠、端到端可达、功能丰富的特点,可以实现传统短信业务能力升级,改善用户体验,重新唤醒面向C端用户的消息业务,有机会与当前OTT类聊天应用软件一较高下,争夺互联网入口。

b)当前众多企事业单位都在积极参与5G 消息业务的应用与合作,社会大众也较为期待各行业基于5G消息的服务创新。运营商可以利用市场对5G 消息的关注度,激活庞大用户群体的活力,探索一条不同于以往运营模式的新生态体系。

c)5G 消息为B 端客户提供了一条全新的营销推广渠道,且具有跨平台应用对接,投入成本低、市场关注度高等优势,有利于进一步重构商业模式,引领全新的5G消息红利的新格局。

另外,根据三大运营商在2021 MWC 上海展公布的5G 消息最新进展情况,5G 消息将在2021 年内完成商用上线。据相关资料统计,截至2021 年2 月份,主流手机厂商已发布60 多款支持5G 消息的终端。可以预见,5G 消息正式上线后必然会呈现爆发式增长,潜在用户数以亿计,这对5G消息各核心网元的业务能力和性能稳定性提出了更高要求,尤其是针对负责5G消息核心业务的MaaP 平台,需要具备更高效率的运维管理能力、更多维度的异常状态监管能力。

2 5G消息MaaP系统现状

MaaP 系统由MaaP 平台和MaaP 平台管理模块2个部分组成(见图1)。MaaP 平台是5G 消息系统的核心网元,部署在与各5GMC 对应的大区,承载交互式5G 消息业务,负责政企用户MaaP 业务的接入、多媒体消息内容上传、消息审核对接、消息内容存储等功能。MaaP 平台管理模块是5G 消息系统中负责管理MaaP和能力扩展的核心网元,与MaaP 平台采用HTTP 协议对接,提供MaaP 参数配置、路由节点管理、业务策略管理等,以及为5G消息系统提供更多扩展能力等。

图1 MaaP网络架构示意图

MaaP平台网管现有功能包含性能管理、告警管理2 个模块。性能管理通过主动或者自动的方式从设备收集或由设备上报设备运行的相关参数信息,以直观的方式显示给维护人员,使其了解当前网络运行的基本情况和性能状态,预防网络事故的发生,预测网络运行状态,帮助网络管理员对网络的管理运营进行合理的规划。告警管理根据时延日常值设置告警门限,当时延指标劣化,低于门限时,自动上报告警,并提供图形化界面的故障呈现方式,以便维护人员及时发现并分析处理,通过设备拓扑图直观查询到设备上出现故障的端口状态等相关信息。

考虑到后续5G 消息业务规模的快速增长,MaaP平台的业务压力也会随之增大,单纯依靠传统人工运维的方法已经难以满足0 停机率和100%设备在线运行的要求,主要存在以下3个方面痛点。

a)需要MaaP 运行状态实时智能感知与综合状态趋势预测,能够提前发现并处理潜在异常情况。

b)需要针对系统运行异常的问题提供系统自动化生成处理方案与主动修复能力。

c)需要实现运维工单的自动化派发并提供全面的故障分析与情况介绍,提升维护人员故障分析与处理效率。

3 数据分析技术应用融合

随着云计算、大数据、AI 等技术快速发展,基于DevOps、AIOps 的智能运维开始兴起,使得传统运维体系中,存在大量重复性工作的运维人力成本和效率问题得到有效解决。然而在复杂场景下的故障处理、变更管理、容量管理、服务资源配置过程中,仍需要维护人员来掌控决策,不利于整个MaaP 系统运维效率的进一步提升。而引入数据分析技术,MaaP智能化管理可以辅助维护人员甚至代替维护人员来做出高效决策与处理,从而实现真正意义的完全自动化(见图2)。

图2 MaaP智能化管理模块技术架构示意图

MaaP 智能化管理模块在技术架构设计上是MaaP平台管理模块的组成部分,通过SFTP 接口获取来自MaaP、云资源池网管、网络中台的多维度运行数据,利用数据分析技术实现基础数据的清理、储存、分析、处置、应用等工作。数据分析集群拉取数据源的原始文件,并把数据载入HDFS 分布式文件系统。为方便管理,HDFS 的文件在经过校验过滤掉不合法的数据后存入Hive。通过多维OLAP(联机分析处理)技术,对多维数据进行有效的表达和处理,然后对数据库当中的关系型数据进行动态化多维度的分析,并将最终的分析结果储存到管理系统当中,实现对系统数据的进一步优化。另外,基于运行状态的历史数据、故障告警数据等建立系统运行状态预测模型,面向未来一天、一周,甚至更长时间的系统状态进行精准分析预测,在可能发生某个异常状态之前,提前做出预警提示,真正提高MaaP系统运行的稳定性。

图3给出了数据分析平台技术架构示意。

图3 数据分析平台技术架构示意图

知识图谱是积累运维工作经验为维护人员提供辅助能力的关键。以图的形式来展示运维知识,用节点来描述运维工作中一些具体方法或者概念,用边来描述维护处理方法与方法之间的流程关系或者实体的一些属性。通过这种结构化的知识表示形式,知识图谱将各类维护案例和处理方法等知识表达成机器能够处理和理解的形式,从而使机器能够像经验丰富的维护人员一样去分析异常并做出合理的决策,进而为MaaP系统运维工作提供更加高效的智能化支持。

4 智能化管理功能模块设计

MaaP 智能化管理功能是MaaP 平台管理模块的核心功能,面向MaaP 平台网管提供MaaP 状态全面感知和智能辅助管理的能力,从功能上实现MaaP 运行状态智能化监管和运行策略自动化管控等(见图4)。

图4 MaaP智能化管理模块功能架构示意图

4.1 MaaP运行状态智能化监管功能

MaaP 运行状态智能化监管应具备MaaP 运行状况全面感知,平台健康状态预测等多种能力,解决原有人工管理方式响应速度慢、效率低的问题。具体实现上,通过收集MaaP 运行日志、网络状态、资源池状态等数据,利用数据分析技术建立预测模型实现MaaP运行状态感知和多维度运行状态趋势分析。

MaaP 运行状态感知能力通过对接MaaP 探测服务器实时监管MaaP 状态(如主处理机性能、业务量、数据同步成功率等),结合网络日志、服务器运行日志、告警信息等多维数据全面分析监督MaaP运行状态。

平台健康状态预测基于MaaP 运行状态感知功能所获取的历史数据,利用机器学习方法训练预测模型,实时分析未来一段时间的MaaP 运行状态走势、业务量变化趋势,给出峰值具体数据及发生的时间点。系统根据平台健康状态预测得到的多维度状态趋势数据自动化生成应对策略。例如,当前运行问题来自服务器资源容量问题,则自动生成可满足当前需求的服务器配置,并预测未来何种情况下需要再次扩容。

4.2 MaaP运行策略自动化管控功能

通过抽取维护人员在MaaP 各类异常状态的应对方案知识点,基于知识图谱建立一套完整的智能运维辅助决策功能,实现应急预案的自动推理与生成。同时可提供模拟工具,根据设定的参数模拟各类压力及故障情况,生成应急预案,辅助维护人员更高效地处理紧急事件。

当MaaP出现运行故障或业务量过大的情况时,根据自动生成的应对策略执行分流任务,实现MaaP业务向备用MaaP 自主转发,并实时监控主MaaP 和备用MaaP之间业务量、服务器压力、网络流量的情况对比,判断分流效果。

MaaP 运行策略管控模块收集并记录系统运行中的故障告警信息和响应时间、工单派发及处理时间、故障处理流程及解决时间等数据,挖掘潜在的数据关联关系与问题点,为后续工作提供运维数据分析报表、高频次高风险问题统计分析等数据支持,帮助网管持续优化工作流程与方法。

4.3 运维工单智能化派发功能

MaaP系统运行状态异常时,运维工单会通过人工手动发送完成,然而,发送工单的人员很难通过简单观察描述出准确的故障情况和紧急程度,这会造成工单数量多且优先级混乱的问题。对于5G 消息业务开展会造成难以估量的影响和巨大的经济损失。通过数据分析技术可以对异常情况的紧急程度做出准确判断,并结合当前系统状态数据和应急预案一同随工单自动派发给维护人员。

应用传统运维方式管理MaaP系统时,可能会因为维护人员自身对系统了解不够,导致对异常状态的运维效率较低,只能对潜在的故障问题一一排查,费时费力。而通过MaaP 运行状态监管模块工单中所提供的应急预案,可以有效帮助维护人员处理现场问题,明确故障产生的原因,快速完成异常修复。需要注意的是,在实际应用中需要不断收集各类异常数据并持续训练优化异常状态的数据分析模型,才能在长期的生产环境中积累一定的数据基础,更精准地提供业务分析能力。

5 结束语

高效正确地提供MaaP管理能力是MaaP运维工作最为重要的内容,MaaP智能化管理功能以数据分析技术为核心,可以实现MaaP 运行状态的全面感知与管控,理论上会为MaaP 提供0 停机、高稳定性运行的可靠保障。同时,面向MaaP可以提供各类异常问题的快速检索、预测和智能辅助决策,使得维护人员能够快速解决问题。数据分析能力充分体现了运维数据价值,真实反映了当前多个维度的系统运行情况,并能够通过数据分析发现当前MaaP系统存在的各类问题,甚至是潜在问题,及时辅助维护人员制定或完善更有利于运维管理的策略。

猜你喜欢
工单运维消息
高职院校计算机类专业“工单制”教学的研究与探索
基于RPA技术的机器人在配网调度工单发布工作中的应用
一张图看5G消息
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
晚步见道旁花开
基于分布式数据库Cedar的高效工单管理系统设计与实现
人工智能新探索 打造银行智能工单
电子政务甲方运维管理的全生命周期