运营商数据质量智能化监控体系建设的研究

2022-06-07 07:42张玲艳苏临霖
数字通信世界 2022年5期
关键词:运维阈值可视化

张玲艳,苏临霖

(中国移动通信集团广西有限公司,广西 南宁 530022)

1 背景

1.1 运营商大数据时代

随着网络信息技术的飞速发展,各行各业的信息化水平日益提高,用户基于运营商基础网络服务相应产生的数据规模海量提升。而随着大数据技术的发展,数据的作用不断凸现,不但可以帮助运营商提升运营效率和经营绩效、还会带动新商业模式和运营模式的产生,运营商对数据的重视和投入也在不断提升,运营商的大数据时代来临。

通过数据挖掘分析,从海量用户行为数据中挖掘用户消费特性,进行精准营销,推荐各类业务和应用,直接提升经营绩效;结合网络管理维护数据、供应链、企业内部财务等数据进行网络运行质量分析、战略分析、成本分析等,有效支撑企业决策,提升运营效率。

另一方面,可基于行业内部数据进行用户行为还原、行为分析、行为预判,将行业客户数据封装为服务,形成可对外开放、可商业化的核心能力,尝试与外部数据打通互联,共同运营,为各行业提供创造新的服务价值。

1.2 大数据运营面临的质量困境

随着业务的快速增长和日趋复杂,运营商大数据系统的数据流转和处理环节越来越多,数据管理越来越复杂,数据质量保障的难度也越来越大。日趋复杂的数据逻辑对数据质量提出越来越高的要求。

运营商的企业级数据分类覆盖B域(业务运营域)、O域(网络域)、M域(管理域)及S域(系统管理域)四域所有数据类型,囊括了用户参与人、服务、资源、事件、账务、营销、财务、工程、组织、网络、互联网等基础主题域,又在此上衍生了融合模型及分析模型等应用,数据类型复杂,进一步加剧了数据质量的管理难度。

通过开展数据质量管理工作,可以获得准确、结构清晰的数据,是企业开发大数据产品、提供对外数据服务、发挥大数据价值的必要前提。为了实现数据治理的总体目标:通过“强管控、治数据、显价值”,逐步实现海量数据“进得来、看得见、管得住、用得好”, 推动数据作为“新生产要素”的核心价值实现,最终支撑数字化转型战略目标的实现。

2 数据质量智能化监控体系建设

为支撑数字化转型战略目标的实现,通过改造和优化现有IT基础设施,构建数据质量预警阈值自适应模型,建立数据质量统一预警中心,基于生命周期的各环节建立闭环反馈机制,建设数据质量智能化监控体系。

2.1 建立预警阈值自适应模型

建立预警阈值自适应模型,实现预警阈值的灵活调整,避免大量无效告警。

为避免告警冗余,大批量预警需依赖人工处理的问题,针对预警信息进行总结归纳,完成对指标阈值的盘点,结合历史经验,研发预警阀值自适应模型,通过该模型设置预警条件,打造指标阈值自适应体系,根据时间、业务场景的变化,自动调整指标的预警阈值。本项目已建立3类预警阈值自适应模型,基本满足业务指标异动的监控预警需求。具体模型如下。

(1)均值模型:预警阈值按照近90天或30天(日期可调整)平均数进行滚动更新。

(2)周期与均值结合模型:一个自然月内不同日期的数据波动预警阈值取历史同周期数据的均值进行滚动更新。

(3)方差模型:部分关键指标计算各地市与全区合计的方差识别指标异动情况。

通过预警阈值自适应模型,实现了预警阈值的灵活调整,避免了业务量变化而预警阀值固定的无效预警。

应用时间序列模型,预警配置灵活性高。可用于数据接口分级联动保障,对接口审核数据的完整性、一致性的波动,对接口审核考核和业务指标的波动合理性,针对每一接口、指标各自定义其历史变化趋势和变化基数,应用时间序列模型,通过历史变化的均值和方差定义95%的置信度,精准定义波动合理性及告警,提升异常数据传输的告警准确性,提升接口数据传输、上报质量;对不同业务指标数据定义不同的数据波动监控,对同一接口建立多个不同的数据监控,使接口数据质量保障具有多维度可信效果。该工作填补了数据完整性、数据准确性方向的数据质量智能预警监控的空白。

2.2 建立大数据质量监控统一预警中心

建立大数据质量监控统一预警中心,主要包括两大功能模块:一是建立智能监控池,二是告警池心跳守护机制,可有效提升系统稳定性。

建立智能监控池,形成大数据质量监控统一预警中心,对接IVR电话告警系统,实现数据质量保障IT换人。

通过梳理数据质量人工监控核查流程,将人工核查过程中的常规数据核查点固化,提炼全流程各控制点的监控规则,包含上游数据到达监控、程序运行情况监控、以及接口增删改等关键环节的监控,形成监控池,监控池中各项监控规则的落地基于Python开发。

为确保监控池正常运行,确保异常时可真正触发告警,同步建立监控告警池的心跳保护机制,防止监控告警池失效。

告警池心跳守护机制,可有效提升系统稳定性,告警池是统一预警中心的核心,为保证告警池的有效性,本项目基于shell脚本开发告警池心跳守护机制, 每30分钟探测告警池的运作状态,探测信息分别通过告警系统与系统端口短信通知运维人员。守护机制大幅提高了告警池的稳定性。自试运行以来,告警池暂停作业的异常情况共5次,均被心跳守护机制及时捕捉,并及时修复。

2.3 开发预警查询系统,预警信息集成化、可视化

多监控功能集成于前台页面展示,将告警界面化集成化可视化,预警信息全流程可视化,预警过程可管[1]。

基于Python3(程序语言)+yaml+unittest,建设预警查询系统,系统化查询当天数据情况,出错情况, 建立集中化可视化的平台一体化呈现界面,直观展现数据上报情况,提升维护效率。对接口数据进行可视化的监控,将接口数据的不可控性,转化为前端页面的可视化,使得数据生成的全流程在前端页面全部呈现,在维护工作中,能可视化监控接口上报的每一个系统控制点,保障数据质量工作的稳定进行。

(1)集成化:该平台集成了接口上报监控、程序运行状况监控、考核指标监控与数据波动监控等功能,通过前台界面展示,维护人员在该监控界面可对接口数据处理过程进行直观监控处理。

(2)可视化:构建前台界面实现数据维护过程可视化,帮助维护人员直观快速地发现异常问题并进行及时处理,实现数据维护工作的高效化。将接口监控维护业务流程。

一方面提升数据质量管控能力,确保经营决策数据准确性;另一方面解决接口维护繁杂、效率低与无法整体展现的问题,以提高日常运维的工作效率。

预警后评估,赋能智能运维:为持续优化预警策略,每半个月定期对预警数据进行分析,基于shell脚本建立了预警后评估模型,由后评估模型输出预警策略优化建议,如长期频繁预警,但探测到数据正常则优化预警规则,未探测到数据源则优化数据源生成方案等。自试运行以来,通过后评估模型完成了120条预警规则的优化,提升了告警有效性。

当上报流程中的关键监控点触发监控池时,智能监控池自动将告警信息实时推送至IVR电话告警平台,由告警平台通过短信、IVR电话通知告警点责任人,当告警级别达到人工干预级别时再人工处理,由实施前全流程人工监控的模式改变为项目实施后按需处理系统告警的形式。告警实现流程如图1所示。

3 应用效果

数据质量是数据运营服务体系的生命线,该智能化监控管理工具目前已应用在数据质量日常管控的多个场景中,并取得了显著成效[2]。

3.1 降低数据故障处理次数

从数据质量监管效能的角度,该成果全面提升质量工作管控水平,实现接口全流程的系统自动处理和精细化管理,提升了预警自适应处理的技术手段,让数据质量问题自查及整改工作更及时、更高效。

项目实施后,夜间异常处理次数月均9次减少到目前月均4次,记录校验异常次数从月均7次减少到目前月均3次,文件校验异常次数从月均3次减少到目前月均1次。从根本上达到主管部门相应的考核要求,异常处理月均降低了75%。

图2 实施前后夜间异常处理次数对比

3.2 提升数据质量与出数及时率

从数据质量管控智能化的角度,本成果为数据质量与及时性提升充分发挥作用,增强了智慧运维能力。

该成果的实现最后是以监控池的形式落地的,数据中台各项应用的质量监控经过评审后均可纳入监控池,统一管理,现已成功将该经验复制推广到各中台子系统的数据质量维护工作,大数据应用共计约800余个监控点已纳入统一预警中心进行统一监控及预警,覆盖当前重点关注应用80%。

经统计,入监控池监控的关键报表,出数及时率由原来的81%提升至94%,有效地提升了应用稳定性, 减少内部客户投诉量,提升了IT服务质量。

4 总结与展望

通过建设数据质量智能化监控体系,提升了工作效率,并创造了较好的经济和社会效益。

4.1 提升工作效率

传统方式数据质量保障工作人工值班保障,易出错且效率极低,能力输出缺乏标准化,运维质量严重制约于人。本智能化监控体系通过基于统一预警中心实现程序与数据异常的灵活预警,同时不断沉淀接口运维经验,优化告警策略,固化自动化上报流程,不断减少告警数量,降低对数据信息流的人为干预次数,提升了数据质量的运维效率[3]。

4.2 经济效益

通过建立完善的数据质量监控保障体系,保障了接口数据的稳定性和准确性,节约成本,构造起数据质量维护方面的智能化运维模型,贯彻了IT换人要求。

4.3 社会效益

(1)构建统一预警中心,实现数据中台质量统一预警,提升数据质量管控效率及管控智能化水平,助力公司数智化转型。

(2)推进数据质量智能运营,沉淀优秀能力。本项目在开发过程中,沉淀了3个通用预警模型能力,形成标准化能力封装。

(3)推进核心能力自主可控。本项目主体能力全部由自有人员完成主体方案设计,从前端可视化监控页面开发,到后端的智能监控池、预警阀值自适应模型的开发,均由自有人员完成,逐步推进核心能力的自主掌控。■

猜你喜欢
运维阈值可视化
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
高速公路智能运维平台
思维可视化
土石坝坝体失稳破坏降水阈值的确定方法
自然资源可视化决策系统
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
运维技术研发决策中ITSS运维成熟度模型应用初探
配电线路的运维管理探讨
基于一体化的变电标准运维模式