测控装备健康管理中心设计与实现方法研究

2020-03-25 01:21杨敏英郭青唐文帅朱鹏辉王娜西安卫星测控中心喀什测控站喀什844000朱峰东方红卫星移动通信有限公司北京100086
卫星与网络 2020年7期
关键词:运维装备状态

+杨敏英 郭青 唐文帅 朱鹏辉 王娜(西安卫星测控中心 喀什测控站,喀什844000) 朱峰(东方红卫星移动通信有限公司,北京 100086)

目前,体系内测控装备众多,各装备系统的设备组成、软硬件指标、参数状态、故障案例等信息往往差异较大、互不相通,犹如“一个个林立的烟囱”,这样造成装备状态繁多、底数不清、问题独立频发。本文通过建立一整套健康管理平台,形成健康管理中心,旨在打破信息壁垒,实现多套装备健康信息深度分析融合,为促进资源融合、提高装备的可靠稳定运行提供有力支撑。

1.总体构想

测控装备健康管理中心采用“云+网+端”体系结构,由云中心、用户端两个功能部分组成,“云”和“端”通过“网”相互连接,构建一体化连接、互通体系。智能化信息管理平台通过“云”管理数据和提供服务,各类用户作为“端”通过“网”接入“云”,包括各地面站、设备生产厂、科研院所、维修中心,上传获取装备信息、访问应用服务。(参见图1)

云中心是装备信息云监控、管理中枢和软件、数据的存储以及综合服务的中枢,具体发挥“数据中心+容灾中心+服务中心+运维中心”四大职能。其中,作为数据中心,承担装备信息数据汇总、数据存储、数据分析与分发等服务;作为容灾中心,所有装备信息的容灾备份;作为服务中心,为用户端各类用户,提供一体化、多样化和远程化的装备管理服务;作为运维中心,承担该平台的综合运行管理。

图1 测控装备健康管理中心架构

图2 健康管理中心网络接入关系图

端,主要承担相应装备的信息采集、录入、获取、分析。平台通过业务网完成云中心、各端系统之间的业务通信、数据同步,业务网为内部专网,如图2所示。

测控装备健康管理中心的组成如图3所示,主要包括健康管理服务器,地面站终端计算机及中心健康管理服务器,详细描述如下:

健康管理服务器部署健康管理软件服务端程序,主要功能是依据系统监控软件采集设备信息,实时(或半实时)监测系统预置的故障监测点,自动识别设备故障,分析故障原因;同时接受来自健康管理客户端的诊断、测试、评估、分析、数据查询、数据更新请求,收到请求后利用综合数据库中任务执行过程信息、系统及业务健康模型、设备状态参数等,结合故障树诊断、规则推理、历史数据分析等手段,将诊断、评估、分析、数据查询、数据更新结果返回给健康管理客户端程序。

健康管理终端计算机,主要部署健康管理软件客户端,主要功能是对采集到的系统健康数据(监控、业务、数据)在线分析显示、数据分析(诊断、评估)发起、主动诊断发起、评估报告生成显示、知识管理、支撑数据管理等。

资源中心也部署一套健康管理软件服务器,主要功能包括:一是可获取所有地面站装备的全部信息;二是可对地面站进行远程健康管理;三是可接收地面站健康管理服务器上报的所有故障信息,一旦某个设备发生问题,能够对中心范围内所有使用该设备的地面站进行查询,综合分析其他地面站该设备指标的恶化情况,给出更换或维修建议。同时可通过物理隔离,将部分故障信息通过专网报给各设备生产厂、科研院所、维修中心。

2 健康管理中心构成及功能

本系统设计提出包括基础设施层、核心技术层、数据资源层、资源管理层、服务层和应用层在内的技术体系架构,如图4所示:

图3 测控装备健康管理中心拓扑图

图4 系统技术架构

基础设施层,提供系统运行的软硬件支撑环境,包括存储设备、计算设备、网络设备等。核心技术层,包括大数据、云计算、智能处理引擎等。数据资源层,主要整合各地面站、各科研院所、维修中心、设备生产厂上传的图像、音频、文本数据等。资源管理层,主要包括硬件资源管理、数据资源管理两部分,根据上层服务需求,对计算资源、存储资源、网络资源、数据资源进行调用和资源分配,并提供系统监控、运行维护、安全保密等运维管理功能。服务层,包括数据服务、专业服务、通用服务三部分,主要负责提供高可靠、高可用、可扩展、可动态伸缩的服务运行框架,提供数据分发服务、智能分析服务、通用服务等各类在线服务。应用层,包括各地面站、设备生产厂、科研院所、维修中心。分别提供装备信息的显示、交互功能。

按照“智能化、网络化、服务化”的要求,测控装备健康管理中心主要功能及模块构成如图5。

测控装备健康管理中心采用分级健康管理方式,全系统的健康管理分为器件及部件、设备、分系统和系统级。器件及部件级的健康管理主要依据器件、部件提供的状态监测信息和产品手册提供的各类可靠性模型等进行健康管理。

设备级健康管理在器件及部件级健康管理的基础上,依据设备的状态监测信息、系统为设备建立的全生命周期设备健康档案等,结合设备级测试手段(如本振相噪)进行设备级的健康管理。分系统级健康管理在设备级健康管理的基础上,依据分系统各类健康状态评估模型,结合分系统级测试手段(如链路相位噪声、杂散和频率响应)进行分系统级的健康管理。

系统级健康管理在分系统级健康管理的基础上,依据系统各类健康状态评估模型、结合系统级测试及标校手段(如 G/T 值、EIRP 值、校相、校零)进行系统级的健康管理。

图5 测控装备健康管理中心结构图

(1)数据分析模块

图6 设备故障模型

图7 故障诊断专家系统结构

设备状态信息应是多层次、多方面和动态的,既可以是实时监测信息,也可以是定期检测信息。该功能主要是对设备基础数据、状态信息、维修信息、维修资源信息和系统用户信息等进行采集、存储或处理,包括:从设备生产商获得的RMS(可靠性、维修性、保障性)等信息;设备编号、设备名称、型号规格和使用部门等设备基本信息;进行故障模式及影响分析的基础信息;实时监测或定期检测的设备状态信息等。只有实现了设备状态信息采集功能,才能为实施设备健康管理提供可靠的数据。

(2)故障诊断模块

为快速发现和解决设备故障,在设备设计时,对有源模块设计较多的故障监测点,保证有源模块的实时监测。系统定时采集地面站内所有可监控设备的工作参数及状态,以每秒 1次的频率通过系统数据库上报到故障诊断软件,作为设备故障诊断分析的信息依据。故障诊断软件依据知识库中故障监测点的知识和规则,从工作参数及状态中提取设备故障监测点信息,检测、判断并识别故障。

设备故障诊断采用基于故障树与专家系统相结合的综合故障诊断方法,综合发挥专家系统的逻辑推理能力,完成故障诊断。(参见图6、图7)

(3)健康评估模块

系统健康状态评估通过系统组成模型、各分系统健康状态、任务影响分析结果、备份关系、系统健康状态模型、测试标校结果数据、任务实测数据(或接收数据)和任务目标状态数据等,根据系统任务能力评估模型相关的各项关键技术指标进行评估和分析,评估得出系统健康状态和任务能力。

系统健康状态评估采用层次分析法,通常简称为AHP方法,是指先将一个复杂问题分解为几个子问题,然后再对子问题向下进行层层分解,一直分解到不可再分解的评估指标为止。计算出各个评价指标后,将指标的评估结果进行归一化,如统一归化成百分制、1分制等,然后通过加权融合的方式计算其父级指标评分,再向上层层融合得到子问题的评估得分,最后通过证据合成的方式计算原复杂问题的评估结果。根据层次分析法,将系统健康状态评估这个“复杂”问题,先分解为分系统健康状态评估、任务能力评估两个子问题,然后逐级分解,直到分解为容易量化的简单问题,即单个的评估指标,然后归一化,计算其父级指标,再向上层层加权融合、证据合成得到系统综合状态的评估结果。评估结果是 0~100的得分,对应健康、良好、注意、恶化、故障等五个健康状态。

评估层次分析法如图8所示。

(4)寿命预测模块

在参数级故障预测中,如果被监测参数类型是数值连续型,那么在系统运行过程中就会形成一个时间-参数值的时间序列,通过对该时间序列的分析,可以对该参数的未来走势进行预测,一旦预测到该参数在未来某个时刻会超过设定的正常阈值,便提前发出告警,基于时间序列的故障预测算法在当前有很多成熟的算法,如多项式回归、自回归模型等,在此不赘述。因此参数级故障预测不需要建模,可以直接采用现有的算法。

由于组件级和系统级设备的健康状态不是由一个参数反映的,而是由几个或者几十个参数共同决定的,并且每个参数对设备的健康状态的影响程度不一样,比如温度参数对设备具有至关重要的影响,一旦温度过高会对设备造成不可逆的损坏,而芯片的某些锁定状态则对设备具有无足轻重的作用。这些参数指标如何影响设备的健康状态,如何从这些参数指标中预测设备的健康状态,没有一个现成的算法来解决这些问题,也是设备健康评估与故障预测面临的最大困难。因此需要对组件级和系统级设备进行数学建模,将复杂问题转化为一个个数学问题。

(5)维修决策模块

图8 层次分析法评估流程

依据故障诊断、健康评估和寿命预测的分析,提出维修决策。给出更换结构/部件的操作指导,并于维护任务完成后对系统功能以及机体结构恢复状态进行综合评定,确认维护任务的正确性。设备维修部门可以通过各种预测模型(例如,灰色预测模型、比例风险模型、人工神经网络等)预测设备或部件的剩余使用寿命,在设备严重停机事故发生之前,利用有效的预测功能可以保证有足够的时间制订和实施维修计划。

(6)其他功能

如运维与安全,具备基于自主可控软硬件,集成各类安全、运维手段,实现系统安全、可靠、高效运行的能力;具备用户权限管理与控制能力,实现对用户统一身份管理框架、认证及授权机制,实现用户对信息资源的权限访问控制;具备数据存储安全、数据访问控制。

3.关键技术及实现

3.1 图像分析功能的实现

人工智能的图像分析首先通过机器视觉摄入图像图形,经过以基于视觉放大、机器学习、神经网络等技术作为后处理的软件处理后获得需要的测量值。现阶段已有部分新设备直接或间接的借助于图像技术,如表面光洁的钢丝绳监测。利用4-6个120度鱼眼摄像头增加系统冗余度,在线监测钢丝绳断丝、断股及磨损等状态,使用视觉放大技术观测由于钢丝绳受损导致受力改变的延展的微小变形,来在线监控无人值守的钢丝绳健康情况。

3.2 故障诊断功能的实现

以时间序列分析法实现功能为例。时间序列分析法是根据过去的变化趋势预测未来的发展,根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。事物的过去会延续到未来这个假设前提包含两层含义:一是不会发生突然的跳跃变化,是以相对小的步伐前进;二是过去和当前的现象可能表明现在和将来活动的发展变化趋向。可根据各地面站、设备生产厂、科研院所、维修中心等提供的历史数据,结合设备的性能指标变化来进行故障预测。

或者基于BP神经网络(ANN)和案例推理(CBR)的综合智能故障诊断、预测功能。对于地面接收系统而言,其故障主要有三种特点。①一对多关系的故障征兆与原因。即一个故障征兆可能由不同的故障条件引发。②存在不易识别的故障。即由于存在噪声或某些偶然因素,一些故障不易被识别。③各个子系统之间是互相联系的、互相影响的,因此预测和排故都较为复杂。

针对系统故障的特点,使用ANN和CBR结合的智能结构模型。ANNCBR模型的核心技术思想是,根据各个案例的属性特征,通过对其建立不同的索引,将一个大型的案例库划分为多个子案例库。ANN作为CBR的前序模块,对输入的故障信息通过学习训练赋予索引,从而可在CBR模块中的具有相应索引的子案例库中索引相似的案例集。其结构如图9所示。

图9 ANN-CBR模型结构图

3.3 健康评估功能的实现

通过综合分析设备的系统组成、运行状态、维护操作以及负载状况信息,选取能够表征设备健康状况的特征参量,对其变化情况进行跟踪和预测,得出当前设备性能处于正常、衰退或者不可用的健康状况评估结论。如图,Ti为当前时刻,Ti+1为给定时间段端点或设备执行下一项任务的起始时刻,En 为设备正常状态的性能阈值,Et为设备可用状态的性能阈值。通过对Ti之前(包括Ti)的性能特征参量观测值进行分析,得出Ti+1的预测值。若 E(Ti+1)≥En,则设备当前处于正常状态;若 E(Ti)>Et、E(Ti+1)<En,则设备性能处于衰退状态;E(Ti)≤Et,则设备已经发生故障或者设备性能已达到下限,处于不可用状态。(参见图10)

3.4 寿命预测功能的实现

以比例风险模型实现功能为例。使用比例风险模型进行设备的剩余寿命预测时,需要完成样本数据处理、参数估计、寿命预测3个基本步骤。简要过程为首先从检修数据中得到以下数据:1.设备从开始运行至失效或截尾的时间;2.设备从开始运行至失效或截尾过程中的协变量矢量;3.事件指示性变量。然后采用极大似然方法来得到模型中各有关参数的估计值,由Weibull分布为基底函数的比例风险模型的失效率函数可得生存函数,由生存函数可得特定可靠度阈值下设备的无故障运行时间。

图10 设备状态趋势图

4.安全防护设计

智能装备信息系统直接负责装备的管控,涉及多种敏感数据,作为地面系统的重要组成部分,智能装备信息系统安全防护系统按地面系统安全防护等级要求进行设计,在网络、主机、应用、数据、运维等方面提供基础安全加纵深的安全防护。其中,网络安全包括云内网络安全(云内部网络隔离、云内部安全域划分)和云安全网关(包括访问控制、攻击防御、NAT、VPN、IPS、应用控制等);主机安全包括云主机安全和物理主机安全两个层面,分别在物理层和虚拟层加固保障系统的安全;应用安全采用安全开发、沙箱防护机制,数据安全采用数据多副本存储、快照安全、数据库服务安全;安全运维利用运维堡垒机实现统一运维入口、身份的严格认证、采取严格的访问控制、监控审计和职责分离来确保运维安全。

安全防护分系统主要提供主机安全、网络安全、应用安全、数据安全、安全运维等多个层面安全防护服务。主要由主机安全防护、网络安全防护、数据安全防护、应用安全防护和安全运维等模块组成。

(1)主机安全防护。包括密码暴力破解防护、后门及漏洞检测、主机木马查杀、补丁管理、主机访问控制等措施。

(2)网络安全防护。包括安全组策略、信任机制、网络防火墙、网络入侵检测措施,有效发现并阻断来自网络的恶意的攻击行为,当监测到的恶意扫描和攻击行为时,能有效识别云服务器的异常行为,自动进行防护。

(3)应用防护。包括应用漏洞检测、端口安全检测等措施,防止应用漏洞被利用来入侵云中心的相关服务,进行非法操作、导致服务异常或数据泄露。

(4)数据安全防护。包括数据安全标签、数据访问控制、数据安全审计、数据隔离等措施,满足不同卫星、不同任务、不同密级的数据安全可靠的存放与访问需求,实现各类数据可靠存储与安全访问,提升数据共享的安全性。

(5)安全运维。实现统一运维入口、身份的严格认证、采取严格的访问控制、监控审计和职责分离来确保运维安全。

5 总结

本文设计了一个智能化健康管理平台框架,可以为测控装备各类用户提供数据分析、故障诊断、健康评估、寿命预测、维修决策等多种支持。在当前测控装备的复杂性、综合化、智能化程度不断提高的环境下,此项研究对于削减维修成本、提高工作效率和工作质量、科学开展预防性维护维修、提高装备可靠性有着十分重要的意义。

猜你喜欢
运维装备状态
哪些装备为太空之旅护航
这些精锐与装备驰援泸定
高速公路智能运维平台
港警新装备
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
状态联想
生命的另一种状态
配电线路的运维管理探讨
坚持是成功前的状态
电子政务甲方运维管理的全生命周期