制播业务监测系统和运维系统的建设思路

2021-12-13 06:31王万福
电视技术 2021年10期
关键词:运维监测故障

王万福

(中央广播电视总台技术局,北京 100866)

0 引言

目前,中央广播电视总台的业务生产系统离不开信息系统设备的应用。中央广播电视总台的业务生产环节有制作系统、播出系统、媒资系统等,在很多生产环节中,信息系统是主要的支撑系统。信息系统的特点是自动化程度高、IP化、数据化,几乎所有的硬件设备、业务流程都可以通过相应的技术手段进行实时监测。为了提高工作效率,运维工作一般会使用监测系统进行集中监测,监测系统联动运维系统,实现运维工作的快速反应。

1 监测系统

一个基本的业务监测系统的分层图如图1所示,主要包括硬件层、系统层以及业务层。

图1 系统分层图

(1)最下层是硬件层的状态监测,包括对服务器、交换机、存储等硬件设备的状态监测。这些硬件状态数据由各个硬件厂商通过标准接口直接提供,一般包括电源健康状态、CPU使用率、内存占有率、存储容量、数据转发率等相应的数据。

(2)中间层是系统层的监测,包括对操作系统、数据库及中间件的监测。好的监测系统可以直接对系统进程、数据库的表进行实时监测,以便快速发现异常、快速处理。

(3)最上层是对业务层的监测。与下面两层的监测不同,下面两层(硬件层、系统层)的监测是对统一设备、统一系统软件的监测,监测信息数据标准基本一致,实施难度不大[1]。但对最上层的业务系统监测而言,由于各个行业、用户的业务系统不一样,存在很多的个性化使用场景,因此对于业务监测的需求不一样。即使是同一个行业,因采用的业务系统软件的厂商不同,监测的实施情况也会不太一致。在监测系统的实施中,一般业务层的监测是重点、难点,也是呈现亮点的地方,只有做到对业务系统的准确监测,监测系统的整体功效才能得到很好的发挥,才能为业务的维护起到实质性的推动作用。如果监测系统针对业务层的系统监测没有做好、或者没有做,那整体的监测系统就不够完善。

实施业务层监测系统时,首先要明确需求,即明确用户关心什么、想要看到什么。例如,在播出系统中,用户想掌握发播后的数据到位情况,尤其是在自动(机器处理)环节,在预计的时间内工作是否完成,各个客户端与服务端的数据同步是否正常,用户人员是否按规定时间编单及发播了节目等信息;在制作系统中,用户关注制作的节目是否按预定时间发到播出系统,对于各用户下处于审核的节目信息,要能够快速查询到制作流程中的节目信息等;在媒资系统中,用户需要监测到在编目、转码、发布各个环节的节目流程信息。同时,因同一节目会在制作、播出、媒资等系统中流动,还要做到跨系统的流程追踪和对接。

确定好需求后,需要设计监测业务系统信息接口,通过统一的接口标准,由各个业务系统在各自的业务节点向监测系统发送监测信息。监测系统收集到各个业务系统的状态数据后,完成系统跨流程对接、阈值设定、异常报警以及事件日志输出 等工作[2]。

以制作系统为例,制播流程如图2所示。

图2 制播流程示意图

用户完成制作后,节目在发送时,制作系统应向监测系统发送节目制作完成信息,其中应包括节目代码、节目名称、用户名及节点信息等相关信息;节目在一审完成审核后,制作系统应向监测系统发送节目一审完成信息;当节目在二审完成审核,制作系统应向监测系统发送节目二审完成信息;制作后的节目进入播出库后,播出系统应向监测系统发送该节目入库的信息;节目播出完毕,播出系统应向监测系统发送该节目已播出的信息。同时,监测系统需在各个节点设置相应的阈值,如果在阈值范围内未完成规定动作(工作),应触发异态消息,及时通知运维人员,进行快速处理[3]。

按照这样的监测流程,业务层的相关业务流转信息就能被及时抓取,能够做到业务节点和相应的硬件层设备与系统层软件进行匹配,在业务节点出问题时可以及时匹配到相关的硬件和系统,以便排查故障,提高运维响应效率。如果业务层的软件冗余/备份做的足够完善,甚至可能在用户无感知的情况下完成业务层故障处理。

2 运维系统

有了监测系统后,需要使监测系统能够触发异态信息,关联后期运维工作。在监测系统出现异常报警信息后,一般都需要运维人员干预处理,处理的异常问题、处理的步骤记录、处理时长等,均是运维管理人员关心的要素。因此监测系统还应和运维系统关联[4]。监测信息接口如图3所示。

图3 监测信息接口示意图

运维系统在日常工作时,可接收由监测系统传送的异态信息,自动生成工单,如果条件允许,可通过App将生成的异态报警信息推送到运维移动端,做到报警信息及时提醒。运维人员完成异态处理后,可由监测信息发出恢复信息(也可人工操作),消除异态报警信息[4]。在日常巡检工作中,可由监测系统采集各个系统的登录记录,生成巡检记录,发送到运维系统,作为日常巡检工作岗位审计的一项内容依据。

运维系统的主要用户角色是运维人员和运维管理人员。运维系统可使运维人员和运维管理人员对系统的认识深度、状态情况的了解处于同一层面,可以消除对系统运行情况了解不对称的情况,因此不同用户对系统运维的关键点、改进点、故障点的认识可以取得大致统一。除此之外,运维系统还能让运维人员之间、运维人员和运维管理人员之间的工作沟通、交流更加便利、透明。这使得系统管理人员在系统运维工作方面,对于人员的管理、工作的分配、更新计划的制定等,更贴近于系统待解决的问题和远期面临的问题,也更易得到一线运维人员的认可和支持。一线运维人员工作的自主执行力将更强。

运维系统可以形成一个运维工作的平台,主要功能模块如表1所示。

表1 运维工作平台功能模块

(1)任务管理。对系统的日常巡检、月度巡检、BUG修改等任务的管理,包括任务统计、任务评分以及任务完成情况追踪等记录。

(2)故障管理。对系统内故障进行记录(有手工填写、系统生成等方式),并以故障单为载体,可将故障处理单在不同岗位间流转,填报处理记录、追踪处理情况,直至故障处理完毕,关闭故障单[5]。

(3)升级流程。进行软硬件升级时,需要填写操作申请单、操作单,对申请单、操作单进行各个相关岗位的审核。审核通过后升级进入执行阶段,执行完成后由执行人填写操作结果——升级是否成功以及升级中出现的需要特殊说明的情况。

(4)文件送达。对上级下发的相关系统设置的文件扫描后,进入运维系统,可由相关管理人员填写办理意见并送达到执行人,同时也可传阅给相关人员。

(5)资产信息。涉及资产变更的操作由资产管理员初审,完善填报资产变更信息,在升级完成后,资产管理员在监测系统中修改资产信息。实现在日常运维中,资产发生变化时,资产信息能得到及时更新[6]。

(6)排班管理。针对运维人员24时3班倒的工作模式,建立排班管理模板,实现排班安排、换班申请等功能。

3 结语

监测、运维工作主要涉及监测系统和运维系统两个功能平台。监测系统是对信息系统的网络设备、主机设备等硬件状态信息及时监测,对操作系统、数据库软件、中间件等系统软件的状态及时监测以及对业务层软件的流程状态、工作状态及时监测。运维系统是对系统运维操作的集中管理平台,通过运维平台将监测系统和运维人员紧密贴合在一起,使运维人员对各个业务系统的运行情况了解得更准确,能够更好地维护各个业务系统,故障处理更加及时。

猜你喜欢
运维监测故障
特色“三四五六”返贫监测帮扶做实做细
故障一点通
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
奔驰R320车ABS、ESP故障灯异常点亮
基于ITIL的运维管理创新实践浅析
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
故障一点通