李德伟
(中国电信股份有限公司河南分公司网管中心,河南 郑州 450015)
随着无线通信网络持续不断的发展及演进,近年来我国通信技术更新换代周期越来越短,网络构架愈加复杂,数据维度多,来源广,给运维工作带来了巨大挑战,集约化维护的不断演进对网络维护、用户感知也提出了更高的需求,从提高集中监控的网络运维效率、智能化水平的角度出发,亟待提升现有监控平台的智慧化水平。
通过开发智慧运维监控平台,以价值运维的方式实现了对现网图形化的实时监控,并做到了利用手机端对网络的随时监控[2],平台上线后,在重要的节假日和日常运维工作中得以迅速推广应用。
目前运维工作相对分散,无集中化的实时监控,尤其并存着多个设备厂家,缺乏统一的集中运维支撑平台,工作效率相对较低。为了应对多维复杂的网络现状,以及快速响应和处理出现的网络问题,我司通过多方研究取证,决定进行智慧运维监控平台的开发。
通过对告警、性能等数据的汇聚分析,以图形化、趋势化的方式对多维数据进行动态展示,并结合地图进行地理化呈现,继而可提升运维效率、丰富运维的管理手段、加强运维的支撑能力、促进从被动运维到主动运维转变[3]。
平台引入告警、KPI、XDR等多维数据源,结合价值运营的理念进行信息整理分析,并以图形化方式实时呈现出来,另外可通过微信公众号的方式进行手机查阅,随时掌控网络情况。
图1 平台构架Fig 1 Platform Architecture
智慧运维监控平台结合需求与实际现状,优先以六大模块进行开发,分为告警监控模块、性能监控模块、业务量监控模块、多场景监控模块、重点区域监控模块以及公众号模块,各模块的开发的特点如下图表所示:
2.3.1 全面高效的实时数据处理
通过对不同厂家的告警、PM、XDR等多维数据收集和处理,实现了智慧运维监控平台对全网的告警五分钟、性能15分钟的实时监控效果。在性能数据的处理方面,采用如下两个手段,实现数据的及时获取[4-5]。
1在数据获取阶段,程序中采用了基于“段”的并行处理方式,创建多个线程并行的进行数据获取,并且同一类的数据也通过分段将任务分解,并发执行,从而大大提高了程序的执行效率,缩短了数据的获取时间,在5分钟左右可完成所有数据的获取及存储。
2使用Redis缓存混合算法实现大数据量的获取查询,在redis缓存中保存上次页面访问时的用户数或流量等性能数据,页面渲染数据可快速显示。
表1 功能模块Tab 1 Functional Modules
2.3.2 价值导向的运维方式
常规的保障,往往会进行“大而全”的全网监控,基于价值运维思路指导,根据价值贡献度和用户服务等级将基站分为四个场景,通过对基站进行四象限的划分,以价值为导向,制定不同的考核目标[6-7]。
价值贡献度,即对基站产生的流量和用户数按照价值等级进行划分;而用户服务等级,则是根据基站本身所处的位置属性,划分为党政机关、学校、商城、车站、乡镇、农村等标签;最终综合价值贡献度与用户服务等级,对基站进行A、B、C、D四个象限划分。
表2 四象限划分Tab 2 Four Quadrant Division
2.3.3 图形化呈现及GIS地图精准定位
智慧运维监控平台页面按照省公司、地市、区县进行三级页面呈现,采取逐级下钻,并实现GIS地图精准的定位显示。(1)告警监控模块,以5分钟为周期,按照价值运维的思路,针对性的进行差异化的保障;(2)业务量模块,以15分钟为周期,聚焦用户数和流量监控,分别根据用户数或流量在地图上直观进行渲染显示;(3)重点区域监控模块集告警、性能、感知指标的多维集中展现,节假日或高价值基站全面监控。可进行自由化的指标定制、监控时间粒度定制;(4)GIS地图呈现,按照逐级下钻方式最终可在地图中定位问题小区。如下图所示为四个页面的呈现效果:
图2 页面呈现Fig 2 Page rendering
2.3.4 手机端监控彰显平台多样化
以智慧运维监控平台为依托,以及时便捷的信息查阅为目标,迭代开发了微信公众号信息推送服务,通过河南电信官方微信公众号可访问到智慧运维监控平台,随时随地查阅网络情况。
图3 掌上查阅监控Fig 3 Handheld Access monitoring
智慧运维监控平台实时化的监控,便捷性的呈现,受到我司运维工作人员的好评,在多项重要活动和节假日保障中均有应用。在2018年的春节保障中,借助智慧运维监控平台,对全省多维数据进行实时监控,高效便捷的完成了除夕保障任务。通过除夕当天在现场放置大屏,采用对告警、用户数、流量、KPI、高铁、重点区域进行实时轮播监控。
图4 保障界面Fig.4 Security Interface
智慧运维监控平台在除夕前迅速上线,在除夕监控保障中得到广泛认可和好评,体现在以几个方面:①重点指标实时自动统计,减少人工的工作量及误差;②重点指标大屏循环轮播显示,能够全面把控网络现状;③热点区域以渲染的方式呈现,直观清晰,并支持进行三级下钻;问题站点快速定位,能够及时反馈。
智慧运维监控平台在推广应用中也受到地市客户的认可。以濮阳为例,目前智慧运维监控平台在濮阳监控机房中使用,并且现场工作人员使用平台进行网络问题的实时监控。
图5 大屏呈现Fig.5 Large Screen Rendering
图6 远程操作Fig.6 Remote Operation
通过在濮阳地市的应用,协助现场从工作模式、工作效率及工作量上都有显著的变化,提升现场维护工作的效率,减少了现场维护人员的压力。
自2017年4月份智慧运维监控平台在全省各地市应用以来,各地市逐步使用新型的自动化监控代替传统的方式,极大释放了当地监控工作压力,提升了运维的工作效率;在微信公众号应用开发推出后,迅速推广至全省18个地市管理层使用,实时的信息推送,及时的维护响应,改变了运维工作中被动的痛点,另一方面也推动了自动化运维进程。
通过智慧运维监控平台的应用,不仅能够提升运维效率和管理能力,实现一定的经济效益,同时,通过向集团申报最佳实践,开展中国电信全网推广[8]。通过此项工作的开展部署和推广,节省了成本,绿色环保,除达到经济效益、提升维护效率和降低运营成本外,取得了一定的无形效益。