唐传广 陈传亮
通信运营商基于业务支撑系统的数据监控
唐传广 陈传亮
中国联通软件研究院,北京 100176
业务支撑系统是通信运营商的核心系统,基于此,论述了辅助业务支撑系统的数据监控系统,为业务支撑系统的稳健运行保驾护航。
通信运营商;业务支撑系统;数据监控;监控系统
随着运营商业务支撑系统用户数的增加,系统的负载压力剧增。随着社会的发展,用户对服务愈来敏感,要求在办理业务时能轻松、快捷地完成,这给业务支撑系统提出了更高的要求。为了保障业务支撑系统的健康运行,数据监控系统应运而生。
经过分析,监控系统应能满足下面几点要求:(1)事前预警。提前发现业务支撑系统交易数据异动(比如业务量剧减、积压量剧增等),提前预测业务支撑系统的风险,在用户有所感知前解决系统问题。(2)事中定位。如果业务支撑系统发生故障,通过观察业务支撑系统不同环节的业务量,快速排查事故原因(比如工单积压等)。(3)事后分析。保存业务支撑系统故障发生时的历史数据,为分析故障原因提供第一手资料,便于问题的跟踪,防止相同故障再次发生。(4)易于使用,便于监控。使用便捷,人员经过简单培训后,即可使用监控系统。[1]
2.1 实时监控,提前预警
数据监控系统上线前,业务支撑系统发生故障后,一线人员层层上报故障,工作人员接到故障指令后进行处置,故障响应的周期长,影响用户感知。数据监控系统上线后,可以实时监控系统运行情况,由被动接收一线人员上报故障信息,调整为主动发现系统异常,快速处理系统故障。如图1,如果工单积压量突然连续上升,表明系统处理工单的效率在降低,这时候就需要检查业务支撑系统服务器的资源是否正常,提前介入分析、处理。
图1 工单监控图
2.2 分类监控,快速定位
数据监控系统上线前,如果业务支撑系统发生故障,需要工作人员对各个服务、系统日志进行排查。数据监控系统上线后,可以监控业务支撑系统多项指标,通过观察发生故障的指标,快速定位问题(比如BO不扫单,IOM积压量)。
2.3 故障总结,为业务支撑系统优化提供数据支撑
数据监控系统上线前,系统故障发生后需要运维人员和研发人员查看系统日志来分析故障原因。日志文件通常体量巨大,分析难度大。数据监控系统上线后,查看历史记录,通过数据量的变化轨迹和变化异常,能够简捷直观还原故障场景。
2.4 可视界面,简捷直观
数据监控系统上线前,运维人员需要检查服务器、数据库进行通常的运维操作。一方面,直接查询数据库会增加数据库负载,增加系统风险;另一方面,难以发现异常数据,而且操作复杂。数据监控系统上线后,运维人员将主要系统监控指标配置到监控系统后,通过图形界面即可监控业务支撑系统,并能形象直观发现系统异常。
2.5 日常业务量数据为经营分析提供参考
数据监控系统上线后,管理人员可以实时准确掌握当前系统的经营状况。实时业务量也可以作为经营分析数据的一部分,为领导决策提供依据,如图1所示。
图2 开户类型监控图
图3 开机工单监控图
3.1 数据卸载技术
数据监控系统基于OGG-KAFKA,而不是传统意义的关系型数据库。通过OGG将数据库的变化量同步到KAFKA,数据监控系统通过分析KAFKA的消息队列统计监控指标,而不是在数据库通过SQL或存储过程统计结果。数据监控系统实现数据卸载,避免直联数据库,给数据库造成额外的负载压力。
3.2 算法统计
由于数据监控系统不是基于传统关系型数据库,无法通过SQL或存储过程统计,生成统计指标需要将传统SQL演绎为计算机算法,通过编程算法得到统计结果。
3.3 内存数据存储
数据监控系统将统计结果存储于内存数据库redis,数据读写效率大幅提升,实现业务支撑系统实时监控,避免因为数据延迟造成数据失真并误导监控人员。
后续计划归纳多个监控指标形成监控指数,并划定监控指数的合理区间,以及不同服务类别发生故障时的监控指数区间,业务支撑系统超出设定的阀值时可以通过短信、手机客户端等多种方式进行告警,为业务支撑系统的稳健运行保驾护航。
[1]朱奕健,张正卿.基于通信运营商数据的大数据实时流处理系统[J].中国新通信,2016(3)78.
F626.115
A
1009-6434(2016)04-0003-01