邹娟娟
(解放军新闻传播中心,北京 100011)
目前,广电行业各单位业务系统的运行维护依旧采用传统人工运维的方式。各系统运行普遍处于孤岛状态,被动发现故障的情况时有发生,系统运行的实时数据状态无法监控和共享。每个系统是由不同的设备厂商搭建,系统的架构也不一样,并且设备类型也多、设备更新的年代也不一样,所以在系统维护和问题定位上必然会产生效率低下的问题。而当系统出现问题时,通常的方法是根据故障现象,通过逐一排查解决故障点。这样的方法会导致诊断耗时费力、无法提供详实的决策数据、无法快速定位故障点,有时只是在治标不治本。为了解决以上各自为战、难以管理、分析片面、疲于应付等问题,统一的运维监测监控平台就显得尤为重要。
统一智能监测监控系统的建设解决了目前各业务监测系统独立、数据分散、无法从全局的角度呈现全台的运行状态,无法提供有效的故障定位和智能化故障自愈的监控痛点,摒弃了“救火式”、人工盯防、低效率的运维模式。
统一智能监测监控系统整体采用积木式的模块化设计,可以根据业务的需要进行横向或纵向的扩容,软件采用标准的B/S架构设计。系统以“运维实际需求”为原则设计,解决在运维管理中遇到的各种问题。
系统面向IT化设备及机房环境进行监控,根据指定范围,自动发现可被监控的设备对象以及被监控设备之间的链接关系,并形成系统拓扑。事件处理引擎和性能处理引擎分别接收告警信息和性能信息,进行分析,按相关的策略进行逻辑或运算处理,通过统一监测监控平台及时进行发布和展示。
监测监控系统总体架构从下往上依次分为基础资源层、数据采集层、汇聚存储层、分析处理层、业务应用层、展示层、用户层等七个层次,另外具备接口服务层,方便与第三方系统进行对接。
此体系架构可以实现针对不同监管对象、不同数据的归一化采集、处理、分析,便于各类事件、数据的过滤、合并、关联定义、汇总,并对报警进行集中展现,为决策分析提供参考依据。
基础资源层为被监管对象,各类被监测对象统称为基础资源。例如:各类视音频信号(SDI、ST2110、TS、RF等)、IT设备、AV设备、通用软件、业务软件、机房环境等。
图1 统一智能监控系统架构设计
数据采集层针对系统所有纳入监管范围的IT设备、信号等,部署不同的监测采集器。在监测信息指标数据采集时,被监测设备需开放其标准化或私有化协议,支持数据指标的采集。对于视音频处理设备,系统通过接口方式接收和适配专业设备厂商网管信息,完成告警和性能采集。
汇聚存储层是对采集性能指标信息、告警数据、各种规则库和数据库的基础配置等信息进行集中存储,存储的数据可以通过管理平台进行查询,同时供其他业务模块进行调用,实现进一步的分析和处理。
分析处理层是依据不同监管对象、不同规则策略,对各种事件、性能数据等进行分析、处理并输出结果。既可对事件数据进行处理分析,并发出告警;也可对收集到的性能数据进行运算处理,提供用户化的性能数据。
业务处理层是根据统一监测监控系统包含的不同监管业务进行任务部署、规则配置等,实现基础数据的配置管理和监管业务的处理。
展示层可对系统告警、监控信号、设备状态等信息进行统一的展现。重要事件的告警信息还可通过多种形式通知运维人员。
用户层是面向不同工作岗位,通过订阅方式提供的个性化监控数据服务。依据用户权限和角色不同,实现功能区分。
2.2.1 监控对象及范围
监测监控范围及对象主要有存储、服务器、交换机、安全设备等核心业务机房的IT类设备;UPS、机房温湿度、空调运行状态、空调或水管下方积水、机柜温湿度等机房动力及基础环境;并在机房内合适的位置安装视频摄像机,监控人员在机房的活动。
IT设备监控对象包括机房中所有可进行监控设备,包括服务器、存储、交换机、安全设备、工作站等设备。
2.2.2 监控功能实现方法
针对IT设备的监控主要是对各个设备的性能指标、报警信息以及日志等数据实时采集和越界报警。本系统采用无代理、分布式部署的采集服务器进行响应数据的采集,采集任务和采集策略通过统一的管理平台进行集中配置管理。
基础环境监控通过部署温湿度传感器对机房的温湿度进行实时监测;部署水浸传感器,对可能产生漏水位置进行漏水监测;机柜部署微环境传感器,实现机柜微环境实时监测,并将所有监测结果上报至统一监测监控平台。
视频安防监控是通过部署视频摄像机对机房及重要位置进行7×24小时视频监控,并进行录像。录像文件长期存储,通过管理系统可以实现录像文件查找、回看及下载等。视频监控摄像机、录像的管理通过统一监测监控平台集中实现。
节目信号监录是对各种信号源内容实时监测、监看和7×24小时收录,收录文件存储至磁盘阵列中,可以通过统一监测监控平台进行录像文件的查看、下载和收录任务的管理等。
对业务机房的UPS状态、空调运行状态进行实时监控,获取性能指标和运行状态信息上报至统一监测监控平台。平台可以设置报警开关和门限,一旦出现越界即产生报警,及时通知相关人员,防止重大播出事故的产生。同时可以借助3D可视化技术实现对机房动力环境、报警信息、资产管理等的三维可视化统一展现。
2.2.3 统一监管平台功能设计
统一监管平台具备丰富的功能,其中核心业务功能主要有:
告警管理是统一监控平台的核心功能,它将系统中产生的事件,按照一定的规则进行定级、分类等处理,最终生成告警信息,并及时通知系统运维人员。在平台中,还可以随时查询历史告警信息。
性能管理是通过多种协议、标准或接口等方式获取包括服务器、存储、网络设备、中间件、数据库、动力环境系统等的运行参数和性能指标参数并通过管理平台进行展示或者报警。系统可以通过树状目录的方式查询任意一台设备的性能实时指标或历史性能指标,性能指标同饼图、曲线图、柱状图等多种图标进行可视化展现,提高可读性。
采集策略及门限管理是根据不同的采集对象和要求涉及不同的采集策略和报警的开关、阈值等。采集策略主要包括采集范围、采集周期、采集指标等参数,报警门限支持按照每一个参数设置开关和门限,满足个性化监测要求。
3D可视化是借助面向浏览器的成熟3D图形技术,实现对被监控机房及所有管理对象的虚拟仿真,以完全3D模式构建整个新闻中心环境。可视化子系统通过系统接口与IT设备监控子系统、动力环境监控子系统、安防环境监测子系统等其他监测监管子系统进行对接后,实现多个业务子系统的监控数据、资源及报警信息的等可视化。其主要功能包括:
(1)环境可视化:实现对被监控机房楼层、机房及内部设备位置、信息等的仿真可视化展示。
(2)资产可视化:实现可视化的资产配置管理、快速查询等操作,支持与配置管理数据库进行对接,实现资产数据的自动更新。
(3)容量可视化:容量可视化是对机房机柜空间、机柜功率、承重及机柜容量等进行可视化的查询、统计和展现。
(4)监控可视化:监控可视化是将设备监控、动环监控等相关监控产生的报警信息通过颜色闪烁方式在仿真的对象的机房、设备上进行显示并可以进行查询详细报警信息。同时也支持对设备的性能指标进行实时查询。
建设统一的智能监测监控系统,可以实现各业务系统设备状态和信号的监控,将各后台核心机房的IT设备、动力环境、业务流程等纳入统一的管理。建立集中监测展示和报警平台,可以对业务系统和支撑系统集中进行监测,及早、及时发现问题,消除系统管理盲点,提高整体业务运维能力、事件响应和问题处理能力,防止重大播出事故的产生。