高 山,陈志斌,李彦峰,马树林
(1 中国人民解放军63729部队 太原 030020;2 北京遥测技术研究所 北京 100076;3 中国人民解放军63713部队 忻州 036300)
近年来,我国航天发射任务十分密集[1],在轨卫星数量越来越多,为满足遥测任务需求,地面遥测站也日益增多,遥测装备成体系建设,装备数量、应用复杂度均成倍增加。通过遥测系统用户、总体设计单位和装备研制方的共同努力,部分系统已经实现了遥测任务层面的远程监控和自动化运行[2],在任务过程中可以实现一定程度的现场无人操作,中心统一管控。但是对遥测装备系统的运行管理和维护仍然一直采用本地监视、属地管理、逐级上报、分级维护的模式,这种模式无法实现属地间的装备运维信息互联互通和对遥测装备信息的高效综合利用,并且需要在各站地保持大量设备管理和维护人员,重复浪费了运维资源。统一管控、远程运维[3]、全景监视逐步成为遥测装备管控和运维的迫切需求。而且,在未来战争中信息处理能力将成为决定性因素,规模化数据的汇集和高性能数据处理平台的建设是有效利用大数据处理、人工智能等现代化信息处理手段高效利用数据的基础,遥测装备运维管理逐步从劳动密集型的检修维护管理向基于遥测装备状态采集的主动性、预测性、智能化、网络化、可视化装备资源远程运维支援方向发展。
为适应日趋复杂、繁重的遥测装备管理任务,统筹资源保障各类系统工程装备有效运行,需要加强体系化运维管控能力,构建集设备管控、系统运维、态势监测、信息处理功能为一体的智能运维管控中心,对多手段、多类型装备集中统管,通过现代化信息感知和传输技术实现快速全面获取装备信息,全局性掌控战斗资源,然后通过对各装备、各时段数据的比较、关联挖掘信息,深层次利用运维数据,为遥测资源战斗力部署调度提供直接全面的决策支撑。
美国国防部各地区性司令部都建立了完备的装备管控运维管理体系[4],纵向包括多级管控节点,横向包括多类信息源。顶层管控节点负责完成设备信息综合管理、装备运维管理合同监管与审计、装备维修保障备件供应等工作;中间管控节点负责完成装备全寿命的系统管理、装备技术状态监测、装备维护保障等工作,同时建立了集装备部署、管控、运维为一体的立体化信息管理中枢机构,集中分析管理各类信息,为海外基地统一指挥部署提供信息支撑。
当前各军兵种部分遥测装备已实现一定程度的远程管控能力,基本都是以装备状态监视、远程控制功能为主,同时兼顾任务信息监视能力,而且各单位管控系统一般独立设计,没有形成成熟体系,随机性较大。遥测装备运维基本都是采用本地维护、属地管理的方式,运维成本很高,装备运维和管控信息没有通过结合产生综合效应。各系统也没有有效利用现代信息处理手段,完成各类管控和运维数据的深层次利用。
当前大部分装备可以通过军用光纤网络实现信息互联,单根普通光纤网络的传输速率可达20 Gbps,军用光缆在支持任务数据传输的同时可以支持运维信息的实时传输。为了节约成本,运维中心可以当前已有作战系统共享网络、计算、存储、时统等基础设施,具备建设智能化运维系统的基础能力。
本章提出了遥测装备智能运维系统设计方案,从运维体系、运维架构、运维服务能力和系统工作原理方面进行详细阐述。
构建被管对象(底层运维节点)、运维单元(中间层运维节点)、运维中心(顶层运维节点)多级运维体系。通过部署在被管对象的传感器或者被管对象本身输出的运行状态获取基本运维信息,上报运维单元;运维单元可以有多级,完成所管范围内被管对象或下级运维单元上报的运维数据的汇聚、处理,并接收、处理上级运维单元或运维中心下发的运维数据,在所管范围内实施各类运维活动。运维中心管理全网各运维单元,汇聚、处理运维单元上报的运维数据,下发相关运维数据到下层节点,实施全网范围内的各类运维活动,如图1所示。
图1 运维体系设计示例图Fig.1 Operation and maintenance system design diagram
智能运维体系主要思想是简化前端功能,解放战场条件下的运维人力资源,简化设备端运维操作难度,通过通信传输系统尽可能地将各类传感器、信息终端生成的环境测量信息等运维数据集中送往顶层运维节点——中心,利用规模化的通用处理平台和智能化处理算法实现运维信息的综合深度处理,最大程度运用运维数据。从业务、安全、信息化视角,运维数据接入和系统资源统计形成多维运维数据。在发生故障时,基于实时数据采集、分析处理和远程自动化平台功能,分析处理故障,省去前期信息收集与问题定位消耗的大量时间,将故障排查处理时间压缩到最低,提升用户运维能力,大幅降低运维成本。
针对运维对象系统结构划分实现层级化数据管理和融合式数据分析。通过对态势浏览的层层钻取,可实现宏观掌控装备运行、故障处理进度以及装备运行效能等态势信息;在执行态势浏览活动时,实时获取装备运行状态以及设备故障报警等信息,展开设备维护工作;在态势浏览活动中,宏观获取任务保障、信号生产及处理等态势信息。
遥测装备智能运维系统的前端通过被管对象多维度获取和感知信息,通过各级运维单元和运维中心完成数据汇聚、处理,实现大量异构数据的接入,为运维中心完成全景运维提供信息基础。运维中心通过智能云计算处理平台完成数据汇集、数据处理和业务处理,可实现资源全景展示、装备状态监视与智能维护、运行效能评估、态势分析与预测,为业务用户、装备管理人员和装备研发人员三大类用户提供运维支撑,实现体系架构如图2 所示。业务用户利用运维信息开展资源调配、效能评估、装备规划,装备管理人员利用运维信息开展故障维护、效能优化、快速应变,装备研发人员利用运维信息开展技术支持、装备升级、在线科研。
图2 运维体系架构图Fig.2 Operation and maintenance system architecture diagram
对象系统是需要被管理的资源,包括装备、任务、信号、流程、数据、环境及用户行为等多种资源。按照资源的获取方式和具体内容,对象系统可能是通用设备、专有设备、网络设备、文件接口、业务系统、ICE、日志、数据库其中的一块,也可能是它们的集成系统。
遥测装备智能运维系统采用平台化设计,分层实现。具体设备与系统实现分离、信息接入与信息处理分离、应用数据与应用服务分离,资源属性信息可定制。自底向上包括信息汇集层、数据处理层和应用服务层。
信息汇集层:负责从对象系统中获取监控的状态数据、日志数据、用户行为数据等各种内容的数据,同时也负责把上层的数据传输到相应的对象系统,实现一定的调度控制功能。信息汇集平台层主要通过灵活的代理技术实现数据交互的过程,通信协议库可动态扩充,协议可自定义。同时考虑到特别的要求,同时提供直接与被管资源进行通信的机制,可以直接对被管资源的数据进行分析处理。
数据处理层:负责处理信息汇集层提供的数据,包含数据预处理服务和数据处理服务2 个子层。数据预处理服务是实现各类原始数据的整理、清洗、统计等功能的基础大数据处理平台,主要面向数据本身的处理能力,数据处理服务是基于数据预处理的结果数据进行检索、预测、判决等深度处理平台,主要面向数据的逻辑性、演绎性处理,数据预处理服务和数据处理服务共同为应用服务层提供平台化数据处理服务。
应用服务层:负责实现体系化、全景式运维的业务服务,为用户提供多角度可视化的交互界面。具备全景化系统信息展示,装备资源智能运维,系统绩效统计评估,系统管理等能力,应用服务基于数据服务平台实现,功能动态扩展。
此外,遥测装备智能运维系统通过共性服务为信息汇集层、数据处理层和应用服务层做统一化的保障性支撑。
突破传统的以设备为核心的运维功能设计思想,采用面向用户的运维功能设计。将装备系统运维用户按运维角色分为业务用户、装备管理人员、装备研发人员三类,用户是核心,运维数据是基础,根据功能的要求,设计数据的需求,基于三类不同角色的关注点,设计相应的功能和展示方式:
a.业务用户
①掌握整体态势
宏观掌握装备运行态势、装备维护情况、故障处理情况、装备绩效统计与评估情况等装备情况,宏观掌握宏观信号信息、任务执行情况、业务开展效能统计与评估情况等业务开展情况;
②指挥调度
根据整体态势调配装备资源,安排任务计划;
③远程监控
完成远程设备开关机,设备和系统自检,参数设置,简单故障处理及其他简单装备维护活动。
b.装备管理人员
①资源管理
监视运维资源状态,管理运维资源;
②掌握装备态势
掌握装备基本情况和装备运行态势;
③装备绩效统计
开展相关装备绩效统计工作;
④装备维护
开展日常维护,版本升级,数据推送等相关工作,开展故障及事件管理工作,在必要时人工干预系统判定事件是否告警并定位故障,开展装备系统健康测评工作;
⑤系统管理
运维系统维护管理,用户管理等。
c.装备研发人员
远程统一装备软件升级,协助装备管理人员处理装备故障。
①信息采集及传输
系统在底层节点通过各类传感器及信息终端生成运维测量信息,通过主动或被动的方式将信息上报运维单元,运维单元在运维体系中逐级上报,直至运维中心。运维单元可通过多组队列缓解高并发的数据处理压力,如图3所示。运维单元软件内使用了动态线程机制,根据队列未处理数据数量,动态启停线程,保证软件高效运行。为了防止数据丢失,队列均为可持久化的队列。
图3 运维单元软件采集传输原理图Fig.3 Schematic diagram of software acquisition and transmission of operation and maintenance unit
②资产管理
资源管理实现装备资产全寿命周期管理。主要对运维对象的所有资源进行登记造册与标识,便于统一管理和状态维护。包括装备节点管理、机房与机柜管理、设备/服务管理、信号管理、用户群配置管理等。系统提供动态资源模型创建管理功能。资源管理涵盖了资源建模、资源收集、资源维护和资源消费过程。基于面向对象技术,实现资源模型的灵活构建,满足不同用户的实际管理需求。用户根据创建的资源模型,可以从第三方系统、已有监控系统自动发现、收集资源,也可以手动导入资源,进行统一管理,便于了解资源的整体情况。资产管理过程如图4所示。
图4 资产管理示意图Fig.4 Schematic diagram of asset management
③全景展示
智能运维系统采用数字可视化技术对于不同的装备数据信息采用不同的方式展示,各类角色用户可以更容易参与到数据分析的过程中,增强用户理解与操作数据的能力[5]。通过可视化分析[6]使人们能够通过视觉等感知快速获取数据中有价值的信息,将遥测专业知识融入分析过程,提升决策的有效性。
数字沙盘展示,装备三维建模及装备全貌展示,包括资源物理位置信息展示,工程各手段传感器系统、汇聚节点、应用节点等整体布局。对对象装备系统组成及逻辑连接关系展示,可按单位、手段、工程等维度展示。装备运行整体态势展示,呈现对象系统或全域范围的各类资源综合态势和整体运行状况,通过图块引擎技术便捷地为用户提供多维度的展示方案,为用户决策提供参考依据,可按单位、手段、工程等维度展示。浸入式节点显示采用立体投影建模技术、三维计算机图形技术等有机结合,按照实际装备组成和应用环境产生一个沉浸式的虚拟环境,在浸入式节点[7]显示的系统中,任何物体都可以感受参与者的操作,并实施产生相应变化。
④故障监测及处理
故障诊断及处理能够实现全网装备的故障监视、健康态势预测和智能维护。在传统运维以经验知识为主的基础上,充分利用有效运维状态数据源多的优势,将全网装备按照类别、属地、属性等因素进行分类,归类管理各类故障运维数据,通过对多维运维状态数据的关联分析和同类数据的对比和推演,通过知识库的建立和机器学习的方式构建模型实现健康态势预测和智能化运维。在大大提升故障诊断及处理分析故障能力的同时,隔离各类型装备的差异性,使各系统具备良好的可扩展性和兼容性,保障系统能够持续、稳定、高效的为运维系统提供服务,继而实现对客户系统提供持续可靠的运维服务。故障监测及处理原理图如图5所示。
图5 故障监测及处理原理图Fig.5 Schematic diagram of fault monitoring and treatment
⑤统计分析
系统通过统计组件绑定数据源后展示各种维度的图表,可以提供多维度的对比功能,并进行效能评估。任务能力效能评估主要依据历史任务数、当前任务数、类型比例、各任务类型数据量、活跃用户数、用户业务偏好。运维能力绩效能评估主要依据故障报修数、故障排除数、维护效率统计、升级统计、协同绩效,基于评估结果进行统计视图的展示。
遥测装备智能运维系统极大地简化了前端功能,将运维数据的统一管理、运维信息的态势判断、被管对象和运维体系的效能评估、数字化的信息全景展示全部放在顶层运维节点—运维中心实现,本章针对运维中心的技术体系进行介绍。
运维中心以数据为基础,以现代信息处理技术为核心构建而成。基于大数据处理技术搭建通用大数据处理平台实现海量数据的管理、分析和处理。基于机器学习技术,通过对态势数据集的学习训练构建模型实现态势预测,通过对故障信息及运维操作数据集的学习训练构建模型实现智能化运维。基于多维度评估技术,通过评估知识信息和历史信息实现任务能力效能和运维能力效能的评估。基于数字可视化技术,以多种方式展示信息,实现全景式监控。
利用信息汇集后端处理的优势,在运维中心现代化计算处理平台上构建大数据处理平台[8],将基础数据处理功能通用化、平台化设计,将各被管对象信息抽取后统一汇集,按可结构化和非可结构化数据分别处理,完成数据清洗、计算、分类、排序等工作,并建立管理索引,为上层软件对大数据的应用提供接口,大数据处理平台实现架构如图6所示。
图6 运维中心大数据处理平台实现架构Fig.6 Implementation architecture of big data processing platform in operation and maintenance center
综合利用被管对象运维信息如对系统监测的数据、系统使用状况、历史运维数据、专家经验数据等,同时通过深度学习的方式构建模型[9],评估各类装备的剩余使用寿命,预计其未来的健康状态。深度学习采用监督和非监督学习算法[10]可以自动地学习不同数据的多种特征,将表征数据的数据分类、验证,根据验证结果调整参数再次迭代学习,直到模型创建完成,如图7所示。装备故障预测技术使得装备运维人员可以预知故障的发生,从而采取一系列维修或预防措施,而不必等到故障真正发生之后再做出反应。
图7 运维中心态势预测基本原理图Fig.7 Basic schematic diagram of situation prediction of operation and maintenance center
实现面向被管对象和运维体系的效能评价,即完成任务能力效能评估、运维能力效能评估,并根据各类效能不同的维度和指标借助属性分析模型,从指标库中选取指标参数,结合历史数据和评估模型,评估被管对象和运维体系效能。综合利用对比分析、TOP-N分析[11]、环比分析、同比分析等分布分析模型,并生成详细的分析结果列表,以便用户根据具体的业务场景来借助绩效评价规则的配置来进行组合和使用。效能统计和效能评估的结果,可向各级领导提供决策支持。运维中心效能评估原理图如图8所示。
图8 运维中心效能评估原理图Fig.8 Schematic diagram of efficiency evaluation of operation and maintenance center
体系化运维软件监控的数据指标众多,不同的指标需要用不同的方式直观展示,同一指标由于关注角度不同需要多维度展示,展示内容动态布局、动态切换,实现全景监视,根据任务系统组成和逻辑关系图形化显示业务数据流转状态和系统状态,可依托GIS系统和数字沙盘实现全景综合展示,浸入式现场感官展示。例如全局性运维体系信息可采用基于GIS地图全景显示,区域性运维信息可采用数字沙盘区域全景显示,专业性监视信息可采用逻辑视图显示,被管目标信息可采用浸入式节点显示。
为支持全景信息展示,需要将物理设备信息抽象组合,对象化管理,利用3D 可视化技术[12]将目标系统进行虚拟仿真,并与运维信息整合,实现运行环境、系统状态等监控信息的可视化。运维中心设备建模原理图如图9所示。
图9 运维中心设备建模原理图Fig.9 Schematic diagram of equipment modeling in operation and maintenance center
本文提出了通过构建多级智能化运维体系和建设智能运维中心,实现遥测装备智能运维系统的建设,大幅降低属地装备运维压力的同时,实现遥测装备的统一全景运维。通过现代化信息感知和传输技术实现快速全面获取装备信息和全局性掌控战斗资源,通过进一步对各装备、各时段数据的比较、关联挖掘信息,深层次利用运维数据,为战斗力部署调度提供直接全面的决策支撑。