基于大数据的监管平台统一运维管理系统设计

2022-03-14 02:19羿
电视技术 2022年2期
关键词:工单知识库子系统

王 羿

(国家广播电视总局监测数据处理中心,北京 100866)

0 引 言

监管平台担负着广播电视技术监测、内容监听监看以及安全播出的各项业务,在加强广播电视管理中发挥的作用越来越明显。随着监管平台技术系统和基础设施规模的不断扩大,设备类型和系统架构也越来越复杂。由于各系统之间尚未完成数据互通,缺乏综合监控手段,出现故障时,问题的解决往往依赖于运行维护人员的经验,在故障排查、定位等方面不仅耗费了大量的时间,而且难以做到准确、快速定位并判断故障影响范围。

为进一步有效利用庞大的监管平台运维数据,从整体对运维数据统一管理,从数据采集、存储、分发、共享等过程创建具备可靠性和一致性的运维数据视图,本文通过构建基于运维大数据的统一运维管理平台,从多个维度深度分析和挖掘运维大数据的有效信息,让运维数据“说话”,从而实现监管平台运维管理集中化。

1 现状分析

监管平台运维数据具备大数据的“4V”特性[1]:

(1)规模性(Volume),为及时发现故障,监控系统对各软硬件设备运行数据以秒级或毫秒级采集,系统不间断地运行,产生大量运行数据;

(2)多样性(Variety),监管平台的运维数据既有软硬件设备运行性能的数值数据、系统软硬件配置信息等结构化数据,又有系统日志、网络拓扑结构、业务音视频等非结构数据;

(3)高速性(Velocity),为保障监管平台的业务连续性,运维工程师需要及时监控、响应和处理监管平台系统故障,这要求运维系统具备实时的数据处理能力;

(4)价值性(Value),在监管平台不间断稳定运行期间,高价值的故障数据出现频次较少,数据价值密度低。

为切实提高监管平台运维能力,从传统的“被动式”运维向具备能力的“主动式”运维迈进,首要任务是建设基于大数据的监管平台统一运维管理系统[2],在统一采集各类设备的告警状态、告警信息的基础上,进行统一存储、统一处理、统一分析,高效地发现运维系统的运行风险。

2 框架设计

2.1 框架设计

系统接收、汇总设备运行和业务处理的运维数据,实现运维数据的集中整合,并利用大数据技术对运维数据资源统一管理。该系统的框架划分为数据采集子系统、运维数据分析子系统、工单流程管理子系统、运维电子化子系统、运维案例知识库子系统、综合监控子系统以及系统管理子系统等,各子系统层级之间提供标准化接口,实现子系统间的独立与协作。

制造任务与子任务之间存在分支、并联、分支与并联共存3种典型的逻辑关系,因此,可以用式(7)和式(8)表示为以下形式:

数据采集子系统实现对监管平台的结构化和非结构化的异构数据的实时采集。运维电子化子系统采用结构化数据库和非结构化数据库,依据数据结构、数据量、实时性等特点建立运维数据存储模型,建立统一的数据视图以提供标准的运维数据接口,便于运维数据分析子系统调用数据。运维数据分析子系统对存储的结构化和非结构化运维数据进行分析处理。系统整体逻辑框架如图1所示。

图1 逻辑框架设计

2.2 数据采集子系统

监管平台运维数据除了具有海量性的特点外,由于运维数据产生于各种异构环境,因此还具有数据类型和数据结构繁杂的特点。根据数据源的差别,运维数据可划分为支撑硬件运行的数据、软件支撑系统数据、监控管理系统数据以及监管平台业务数据,其中,支撑硬件运行的数据包括集中存储、分布式存储、服务器、网络设备等设备的运行指标数据,软件支撑系统数据包括操作系统、数据库系统及业务中间件等的日志信息,监控管理系统数据包括监控机房精密空调、配电柜、UPS、温湿度等基础环境的监控数据以及虚拟化主机、计算集群、存储虚拟化的云平台管理中心监控数据,监管平台业务数据包括广播电视节目音视频文件、节目编目信息、节目模板以及人物数据等业务信息。

为适应监管平台运维系统异构数据的特点,利用混合异构数据采集的方式获取监管平台的运维数据。数据采集子系统由一组数据采集服务组成集群,采集监管平台软、硬件的运行数据,并通过Kafka数据总线持续地将监管平台运维数据导入并存储。采集支持多种标准数据接口协议,可通过WMI、SSH、JDBC、JMX、SNMP、SYSLOG、TRAP等接口方式获取服务器、数据库、云平台及业务应用等运行数据。

2.3 运维电子化子系统

运维大数据的数据来源主要有两种,一种是从采集接口获取的目标设备、软件系统和业务的“裸”数据,另一种是来自于系统的运维数据分析子系统、工单流程管理子系统、运维案例知识库子系统等的基础数据。这些数据类型繁杂,但运维大数据所需存储的数据类型可分为结构化数据和非结构化数据。对于结构化的“关系型”数据,本文采用MySql数据存储和管理;对于非结构化数据,将采集的数据信息进行顺序存储,借助HDFS分布式文件系统,将数据以键值对的形式存储至系统中。

2.4 工单流程管理子系统

基于ITIL的工单流程管理子系统,具备运维任务管理、运维工单管理以及运维人员管理功能,并且可通过移动客户端发布工单流程信息[4]。运维任务管理功能在庞杂的系统和设备中依据各运维任务场景,在监管平台的服务响应、故障处理、运维巡检等环节建立一套标准化的工作流模板,实现监管平台运维工单的标准化管理。运维工单管理功能提供工作流程引擎,具备流程定义功能,可以根据需求定制各种类型工单的流转流程。同时,利用自动化业务编排对日常运维操作流程进行任务封装,通过信息联动、业务流程编排建立自动化能力,将运维流程中的人工操作转变为自动化作业。

2.5 运维案例知识库子系统

运维案例知识库子系统实现知识维护、知识审核、知识发布、知识检索以及公告管理等功能。对知识库进行分类管理,提高了知识库的检索速度和利用率,实现了知识库数据在各系统的共享与应用,可用于指导日常运维工作,实现知识的共享和传承。

运维案例知识库分为专家服务知识库、故障案例知识库、技术经验知识库以及维护制度案例知识库。专家服务知识库主要是对有专业技能、有专业特长的人员进行专家档案信息的管理和维护,故障案例知识库是将运维工作中的“经典”故障案例抽取出来,将其“沉淀”在知识库中,提供给运维人员学习和借鉴,以提高人员故障处理技能、缩短故障处理时间;技术经验知识库的内容包括故障处理经验、投诉处理经验、厂家提供的经验、直属单位的维护经验以及其他经典运维类经验等,维护制度案例知识库由维护制度提供。

2.6 运维数据分析子系统

运维数据分析子系统整合运维数据,并利用大数据技术实现所运维的系统及设备的各类信息数据实时状态监测、风险状态分析、业务链路跟踪、关联性预警[3]等进行统一化运维跟踪,主要具备如下功能:

(1)数据冗余存储,多备份保证数据安全;

(2)数据分布式存储,数据分模块分布存储在各个大数据存储节点上,实现任务处理并行度,提高运算效率;

(3)离线数据分布式处理,在功能(2)的基础上进行分布式数据计算,对大量数据进行分析处理;

(4)实时流处理,实时计算分析数据,并将数据发送到展示页面;

(5)机器学习模型训练,通过数据分析、训练,获得训练模型,用于对数据相关性和预测性进行 分析;

(6)数据搜索,能够快速定位到一类数据。

3 基于大数据的数据分析

建立运维大数据平台,进行运维大数据分析,能够为运维工作提供技术支撑和决策支持。运维数据分析子系统的数据来源分为历史数据和实时数据,采用时序序列的机器学习算法能够对有价值的信息进行挖掘,既可以了解硬件设备的运行状况,又可以了解到故障的源头,从而及时地更正错误,更好地提高硬件设备的高可用性;同时还能了解设备故障与业务运行的关联影响、业务增长与设备性能变化的关系、为扩容申请提供数据依据以及对扩容规模进行量化控制。

3.1 业务健康度分析

通过对各业务系统的海量数据进行综合分析,可以得出业务系统中每个IT资源的运行状态和趋势,从而对资源进行健康度分析,并以此对各业务功能节点和业务系统进行健康度分析。运维人员可通过上述分析得出的健康度数据,全面掌握各业务系统、业务节点以及单个资源的运行状况。若健康度分析结果显示存在异常,可对异常资源、功能节点及业务系统进行告警,以业务节点的维度展示影响业务运行的关键节点,有助于运维人员更快地排查故障、定位问题根源,同时也能以网络拓扑的形式展现各级设备对各个业务系统运行的影响,提高运维准确性。

3.2 风险分析

利用大数据系统对设备的运行趋势、运行风险进行分析,对潜在风险点进行预警。风险分析功能主要监控各类设备的关键指标项[5]、流量分析等性能突变情况,对设备的潜在风险进行预警,根据历史监控数据对性能趋势进行预测。通过风险分析,运维人员可以进行更高效的操作,做出更明智的决策,降低运维操作风险,提高系统运行的抗风险能力,提高运维效率。系统可在页面展示风险设备TOP列表,点击列表项可在右侧动态展示所选设备的风险报告和风险统计图表,运维人员可根据大数据分析数据更快更精准地定位可能存在的风险,并通过快速处理避免风险的发生,确保系统持续稳定运行。

3.3 自动化运维报表

自动化运维报表通过前端界面制定运维资源分析报表和执行计划,系统实现自动生成日常运行维护的资源运行状态、指标等报表数据,并以图形、表格的形式展示,也可以提供可供下载的文件,运维人员可以快速并直观地掌握资源状态,提高运维的效率和准确性。

3.4 云资源模拟

系统以准实时采集数据为基础,通过对云虚拟化资源运行指标的CPU资源、内存资源、存储资源总量、已用量等进行综合计算分析,结合新增业务需求,动态模拟预判资源分配情况,为新业务需求提供合理的部署方案,为运维人员的运维保障提供数据支持。

4 结 语

本文设计并建设了监管平台统一运维管理系统,通过统一采集基础设施和技术系统的各类设备的告警状态、告警信息,借助大数据分析平台进行统一存储、统一处理、统一分析,高效地发现运维系统的运行风险。建设工单流程管理功能,实现了运维流程的规范化、流程化;结合运维电子化管理和运维案例知识库,实现了对各类运维信息的综合监控,全面提升了监管平台的运行维护水平,为监测监管业务的开展提供了有力支撑。

猜你喜欢
工单知识库子系统
不对中转子系统耦合动力学特性研究
客服工单监控技术的开发与研究
基于量化考核的基层班组管理系统的设计与应用
汉语近义词辨析知识库构建研究
GSM-R基站子系统同步方案研究
关键信号设备检修自动盯控子系统研究
基于分布式数据库Cedar的高效工单管理系统设计与实现
基于HANA的工单备件采购联合报表的研究与实现
卫星状态智能诊断知识库设计方法
机构知识库建设的动力研究