大型卫星地面站故障诊断的增强分层有向图方法*

2023-03-09 01:05李井源刘增军孙广富
国防科技大学学报 2023年1期
关键词:有向图故障诊断分层

李井源,周 蓉,刘增军,孙广富

(国防科技大学 电子科学学院, 湖南 长沙 410073)

随着卫星应用技术的持续发展,卫星地面站的规模日益庞大,功能复杂性大幅提升,同时对卫星地面站可靠性也提出了更高的要求。以北斗卫星无线电测定业务(radio determination satellite service,RDSS)地面站系统为例,该系统由上千台单机以及上万个部件组成,可用度要求高达99.999 3%。主要依靠人工进行维护和故障分析的传统方法已不能适应此类复杂通信系统的运维要求。一方面,由于卫星地面站设备类型和数量繁多,设备之间紧密耦合,故障之间存在传递效应,使故障来源难以分离;另一方面,复杂系统存在时变性,难以预先知晓并获取完备的故障模式,当有未知故障发生时,需要人工干预,导致故障处置不及时。因此,为了保证系统能正常运行,必须采取一套有效的故障诊断法,对系统进行实时观测,并及时有效地检测和隔离出单故障与多故障。

目前故障诊断方法总体可分为两类:基于数据驱动的方法和基于模型的方法[1-3]。其中,基于数据驱动的故障诊断方法是一种基于浅知识的诊断方法,无须预先获知系统内部各元件的连接关系和相互作用,只需要有大量的历史数据,从历史数据中提取故障模式,目前主要的研究理论包括多变量统计方法、信号处理方法[4-6]等。但此方法不适用于卫星地面站这类高可靠性的大型电子系统,主要是因为在系统建成初期可获取的故障样本太少,难以得到完整、准确的故障模式,造成诊断精度较低,容易误检和漏检。基于模型的故障诊断方法又称为基于深知识的诊断方法,它利用系统的结构、行为和功能等方面的知识对系统进行诊断推理,建立系统的结构、行为或功能模型[7-8],具体的诊断方法包括故障树、分层有向图、神经网络方法等[9-11]。其中,基于分层有向图(hierarchy directed graph,HDG)模型[12]的故障诊断技术能较好地解决卫星地面站面临的上述故障诊断问题。该模型使用节点和有向边表示实际系统中的元件和元件之间的故障传播关系,然后结合给定的系统观测信息进行故障推理定位。该模型的优势是能在较高层次上给出系统的宏观描述,对故障传播路径及其演变提供解释,具备有效识别未知故障及自动获取知识的特点,有很强的通用性,因此该方法在航天、电子、电力等行业复杂系统有着广泛的研究与应用[13-17]。

对于北斗卫星地面站,传统的基于分层有向图模型的故障诊断技术仍存在下述问题:①卫星地面站包含多种信号流,比如射频模拟信号流、基带数字信号流、网络业务数据流、时频信号流等,各个设备具有单个或多个不同类型的输入输出接口,且设备运行状态由多种工况信息来表征,不同的故障类型可能引起不同的故障传播路径,相应的模型也不一样。若按照传统有向图模型方法将各设备各工作状态变量设置为节点来建模,节点数将很庞大,模型异常复杂,需要对节点进行简化。②目前基于分层有向图模型的故障诊断方法中关于如何获取设备故障概率的研究比较少,大多是基于历史故障发生次数来确定,但是对于实际系统而言,故障发生概率低,样本少,统计次数不具备指导意义,导致模型收敛速度慢,故障诊断效率低。③卫星地面站的多数设备具有冗余和备份的硬件结构,但传统的分层有向图模型很难描述热备份设备之间的关系。

为解决传统分层有向图模型应用于卫星地面站所面临的问题,本文根据卫星地面站特点,提出了一种基于增强分层有向图(enhanced hierarchy directed graph,EHDG)的故障诊断方法。在EHDG模型中,对各个设备的多种工况信息按照不同信息流以及故障传播方式进行分类,每类对应为隶属于该设备的一个节点,从而简化模型中的节点数量;通过反向回溯和正向推理减小潜在故障源搜索空间,并根据被搜索次数给出故障源候选集中各节点的故障概率;另外,模型中增加节点有效性使能函数,克服常规分层有向图模型中某一设备由于故障原因切换导致系统结构发生改变时需要重新建模的问题。

1 EHDG模型原理

1.1 数学模型

EHDG模型是利用不同符号和连线来描述系统内部影响关系的定性因果模型,具有包容大量潜在故障信息的能力。对EHDG模型定义如下:

定义1G为一个包含5个变量的有向图,表示为:

G=G(V,P,D,ψ,H)

(1)

式中:

V={v1,v2,…,vm},为有限节点集合。每个单机包含若干个节点,而每个节点对象隶属于一个单机。

P={pij},是有向边集合,表示节点vi指向节点vj的有向边,物理意义为节点vi的一个故障可以传递到节点vj,通常将P用一个n×n的矩阵表示,称之为可达矩阵。

集合D= {d1,d2, …,dm},为有限单机集合,表示组成系统的实体对象,是一个具有输入和输出接口的独立体,也是可执行备份切换的最小单元。其中,di=di{vk,k=1,2,…,L}描述单机di和节点vk的隶属关系,其中隶属于同一单机的不同节点vk有不同的流出边pkj和流入边ptk。

函数ψ(pij)表示有向边pij使能条件,即pij所表示的变量因果关系成立的设备主备份状态。

向量H=[hk(vi),k=1, 2, …,l]表示有向图模型中各节点所在的层级。

定义2EHDG模型中各节点当前的健康状态用函数ζ(vi) (vi∈V,ζ→{1, 0, ?})来表示,即:

(2)

1.2 建模方法

步骤1:为了降低建模难度,简化模型的规模,需要根据系统结构和行为的深知识,对各个设备的各监控点按照不同的故障传播路径进行分类,即将具有相同流入有向边和流出有向边的监控点合并为一个节点,这样可得到系统的所有节点V={vk}。

步骤2:建立有向图的邻接矩阵A=(aij)n×n,其中n为系统中的节点数量,元素aij为:

(3)

对于热备份设备,则假设其为主份状态来建立邻接矩阵。

步骤3:通过Warshall算法,将邻接矩阵转化为可达矩阵P=(pij)n×n,表示节点之间直接和间接的故障传播关系,其中n为系统中的节点数量。P的计算方法为:

=I+A(I-A)-1

(4)

式中,I是单位矩阵。pij≠0表示节点vi的故障可以传播到节点vj,反之,则无关。

步骤4:分解可达矩阵P,进行层级划分,得到分层有向图,具体方法如下:

1)根据可达矩阵P,查找每个节点的可达集Ri和先行集Si。节点vi的可达集Ri表示为第i行中所有为1的列所对应的节点集合,其物理意义为节点vi的故障可传播到的节点;节点vi的先行集Si为第i列中所有为1的行所对应的节点集合,其物理意义为可造成节点vi故障的其他节点。

2)计算各个节点的可达集Ri和先行集Si的交集Ci,若其交集满足式(5),则节点vi就属于第1层节点,也是最高层级节点,在有向图模型中只有流出方向箭头。

Ci=Ri∩Si=Sii=1, 2, …,n

(5)

3)删除所有已确定层次的节点,即在可达矩阵P中删去确定层次节点所在的行和列,从而产生一个新的矩阵,再对新矩阵重复上述1)和2),分别计算第2到l层的节点集合,直到所有节点完成分层,得到向量H。

以一个简单系统为例说明分层有向图的建模过程。某系统有A、B、C、D四个单机设备,经过业务分析,单机A有节点v1、v2,B有节点v3、v4,C有节点v5,D有节点v6和v7,且单机A、B为热备份,其故障传播有向图如图1所示。

图1 单机故障传播路径示例Fig.1 Example of single machine fault propagation path

通过分析有向图节点关系,可以确定未分层有向图模型的邻接矩阵A。

(6)

通过Warshall算法,得到可达矩阵:

(7)

根据可达矩阵P1,可知节点v1的可达集R1={v7},先行集S1=Ø,则有R1∩S1=S1,因此节点v1为第1层节点。同样方法搜索其他节点,得到节点v2、v3、v4也属于第1层节点,则第1层节点集合为:

h1={v1,v2,v3,v4}

(8)

删去节点v1、v2、v3、v4所在的行和列后,重新建立可达矩阵P2:

(9)

对于可达矩阵P2,应用相同的方法,得到第2层节点为:h2={v5}。最后得到第3层节点为h3={v6,v7},该层级是最低层,所属节点只有输入有向边。得到分层有向图如图2所示,由于单机B处于备份状态,其节点v3和v4的输出边用虚线表示。

图2 增强分层有向图模型示意Fig.2 Example of EHDG mode

1.3 故障诊断方法

故障诊断方法的选择决定了诊断的准确性和实时性。对于有较高实时性要求的系统,不能采用复杂性过高的推理算法。本文提出了反向回溯和正向推理相结合的故障诊断方法,如图3所示,具体步骤如下:

图3 基于EHDG模型的故障诊断推理流程图Fig.3 Workflow of fault diagnosis ratiocination based on EHDG model

步骤1:根据设备当前热备份状态获得函数ψ(pij),将1.2节建模得到的可达矩阵P中无效的有向边pij置为0。

步骤2:故障源候选节点搜索:系统发生故障后,被监控节点vi的系统变量异常,发出报警。从报警节点集合中,选取最底层的任意一个报警节点vi开始进行反向回溯搜索。即,从可达矩阵P中提取节点vi的先行集Si,Si中的节点集就是导致vi故障的故障源候选集F=F{vj},并统计每个故障源被搜索到的次数。如此循环,直到所有报警节点都完成搜索。

步骤3:故障源候选节点的有效性判断:若初始故障源候选集中包含了ζ(vj)≠1的节点,即该节点未产生报警,说明该节点可能是正常的,也可能是发生了未知故障的。对这些状态未知的节点,根据卫星地面站信息流特征,采用启发式正向推理来进行判断。

从初始故障源候选节点中找出处于最底层的ζ(vj)≠1的节点vl开始推理:从可达矩阵P中提取节点vl的除vl以外的可达集Rl,以及从系统运行中获知可达集Rl中各节点{vm}实际的健康状态ζ(vm);然后比较各节点vm的健康状态,若ζ(vm)取值皆为1,则初始故障源候选集中仍保留节点vl,并将ζ(vl)置为1;若ζ(vm)取值不一样,则从可达矩阵P中提取节点vl的先行集Sl,在初始故障源候选集中删去Sl包含的节点,并将Sl中各节点的健康状态ζ(vq,vq∈Sl)置为0,这样就完成了一个节点的有效性判断。以相同方法遍历初始故障源候选集中其他ζ(vj)≠1的节点,从而尽可能地剔除掉正常节点,减小故障源候选集大小。

正向推理方法综合运用多种信息,包括故障报警信息和正常信息,自动分析可能的故障源候选点,将故障源限定在尽可能小的范围内,这样可以大大提高故障定位效率。

步骤4:故障源候选节点排序:完成故障源候选节点筛选后,根据步骤1中每个故障源节点被搜索到的次数按从大到小排序,节点被搜索到的次数越多,说明其故障概率越大。若多个节点被搜索到的次数相同,则层级高的节点排在靠前位置。

步骤5:根据1.1节中定义的di确定各节点所属的设备,设备的故障概率取所属节点中故障概率z(vk)最大值,即设备故障概率Z(di)表示为:

Z(di)=max{z(vk),vk∈di}

(10)

从故障概率最高的设备开始执行故障隔离。故障隔离的方法一般是由系统管理软件下发切换或复位指令给可能的故障设备。对于有硬件冗余的设备,优先下发备份切换指令;对于无备份的设备,则下发单机复位指令。

步骤6:评价故障隔离操作结果:若设备不响应系统管理软件的指令,则标记该设备故障隔离失败,需要手动复位设备;若设备执行了系统管理软件下发的指令且系统能恢复正常,则诊断结束,确认故障位置;若遍历完所有设备后,仍不能解决问题,则将诊断过程和结果以报告形式发送给管理员。

2 北斗RDSS地面站EHDG模型及案例验证

将上文提出的增强分层有向图模型应用到北斗RDSS卫星地面站系统的故障诊断建模中。

2.1 系统架构与工作原理

以北斗RDSS地面站系统为例,作为有源定位服务的测量核心和通信枢纽,其主要业务是完成RDSS出站信号的生成、扩频调制和功率放大,以及完成入站信号伪距测量和短报文接收等任务,根据上述任务,卫星地面站信号收发系统可划分为信号发射子系统、信号接收子系统和监控子系统,如图4所示。为方便后续阐述EHDG的建模和推理过程,本文案例中仅对卫星地面站系统简化后的单条收发链路进行说明,真实的卫星地面站包含多星多链路且设备连接关系更为复杂,但故障诊断方法是一致的。

图4 北斗RDSS地面站系统(单链路)架构Fig.4 Architecture of BeiDou RDSS ground station system (single link)

由图4可知,单条接收链路由天线、一分二分路器、主备2台射频采样单元、频率综合单元、主备2台交换机、主备2台数字信号处理单元组成。天线接收到入站信号后,通过分路器将信号分配到各个接收链路,每条接收链路中的主份射频采样单元对射频信号进行变频、滤波、采样等处理,把得到的基带数字信号以光信号形式发送给主份交换机,备份射频采样单元也做相同处理,将基带数字信号发送给备份交换机,主备万兆交换机将数据都发送给该接收链路下主份和备份数字信号处理单元,频率综合单元为射频采样终端提供参考时频信号。

单条发射链路由天线、合路器、主备2台功率放大器、信号分配器、主备2台射频发送终端、出站监测终端、频率综合单元组成。射频发送终端通过心跳线完成主备切换,主射频发送终端生成出站信号,并通过信号分配器分别发送给主备两台功率放大器,主份功率放大器将放大后的射频信号通过天线发送出去。其中收发链路共用天线、频率综合单元和监控服务器。

2.2 EHDG建模

2.2.1 确定节点

对北斗RDSS地面站系统共采集到近100条不同类型的故障信息,通过对故障信息进行级联故障分析,划分引起级联故障的故障表象与故障前因,得到36个关键节点,整理见表1。

表1 北斗RDSS地面站系统(单链路)关键节点分析Tab.1 Analysis of critical nodes of BeiDou RDSS ground station system (single link)

表1 (续)

2.2.2 确定分层

先根据表1建立邻接矩阵A36×36,然后通过Warshall算法,将邻接矩阵转化为可达矩阵P36×36,再对可达矩阵P36×36进行分层处理,得到卫星地面站收发系统(单链路)各节点分层信息,如表2所示,相应的分层有向图模型如图5所示。

表2 北斗RDSS地面站系统关键节点分层结果Tab.2 Hierarchy result of critical nodes of BeiDou RDSS ground station system

图5 卫星地面站收发系统(单链路)分层有向图模型Fig.5 EHDG model for satellite ground station transceiver system (single link)

2.3 典型案例

下面通过单故障报警和多故障报警这两种典型场景的故障诊断过程进行说明。

2.3.1 案例一:单故障报警

在进行故障诊断前,首先要根据当前系统的热备份状态,将可达矩阵P中热备份设备所属节点对应的流出有向边pij置为0。从表1可知,当前卫星地面站信号收发系统中d3、d7、d10、d12、d14、d17为备份状态设备,需要将这些设备的所属节点对应的流出有向边pij置为0。以d7(备份射频采样单元)为例,d7包含节点v13、v14和v15,节点v13对应的流出节点为v21和v24,因此将可达矩阵P中的有向边p13,21和p13,24置为0,同理,将节点v14和v15对应的流出有向边{p14,21,p14,24}以及{p15,21,p15,24}置为0。

仅当主份数字信号处理单元产生“入站业务异常”报警时,即ζ(v21)=1,从可达矩阵P的第21列中搜索到所有非0值对应的行号为1、3、4、5、7、10、17、19、21、36,即初始故障源候选集F包含节点{v1,v3,v4,v5,v7,v10,v17,v19,v21,v36},其中{v1,v3,v7,v10,v17,v36}∈层级1,{v4,v5,v19}∈层级2,{v21}∈层级3,如图6所示。

图6 节点v21单故障诊断EHDG模型Fig.6 EHDG model for node v21 single fault diagnosis

采用正向推理来剔除初始故障源候选集F中正常的节点。由于只有节点v21产生了报警,因此需要对故障源候选集中除节点v21之外的所有ζ(vj)≠1的节点进行有效性判断。从较低层级的节点v4,v5,v19开始推理。以节点v4为例,从可达矩阵P中提取节点v4除去自身的到达集S4为{v21,v24},然后从系统运行状态中获知节点v21和v24的健康指示分别为ζ(v21)=1,ζ(v24)=0,两个节点的ζ(vm)取值不一样,说明节点v4不是引起v21故障的原因,因此在初始故障源候选集F中删去节点v4以及其输入边节点v7,并将ζ(v4)和ζ(v7)置为0。接着以相同方法遍历初始故障源候选集中剩余的ζ(vj)≠1的节点,遍历最终结果是故障源候选集仅有节点v21。这样采用正向推理后故障源候选集从初始的10个候选节点减少到1个节点,故障诊断效率提高了90%。最后对节点v21所属的设备进行故障隔离,即对数字信号处理单元执行主备切换操作。

2.3.2 案例二:多故障报警

当主备数字信号处理单元都产生“入站业务异常”报警,同时主份射频采样单元产生“AD功率异常”报警时,即ζ(v21)=1、ζ(v24)=1、ζ(v5)=1,从可达矩阵P搜索到节点v21的到达集S21为{v1,v3,v4,v5,v7,v10,v17,v19,v21,v36};节点v24的到达集S24为{v1,v3,v4,v5,v7,v10,v17,v19,v22,v24,v36},节点v5的到达集S5为{v1,v5,v10,v36}。对到达集取并集得到初始故障源候选集F=S21∪S24∪S5= {v1,v3,v4,v5,v7,v10,v17,v19,v21,v22,v24,v36}。其中,{v1,v3,v7,v10,v17,v36}∈层级1,{v4,v5,v19,v22}∈层级2,{v21,v24}∈层级3。图7为节点v5、v21和v24对应的EHDG模型图,表3为各故障源被搜索到的统计次数。

图7 节点v5、v21、v24多故障诊断EHDG模型Fig.7 EHDG model for node v5、v21、v24 multiple fault diagnosis

表3 各故障源被搜索次数Tab.3 Number of search hits of the nodes in fault source candidate set

对故障源候选集中除节点v5、v21和v24之外的所有ζ(vj)≠1的节点进行有效性判断,剔除正常的节点。

首先从第2层的节点v4、v19和v22开始推理,由于v4除自身外的到达集S4为{v21,v24},v19除自身外的到达集S19为{v21},以及v22除自身外的到达集S22为{v24},而ζ(v21)=ζ(v24)=1,因此对第2层节点的推理结果为节点{v4,v19,v22}都保留在故障源候选集F中,并将ζ(v4)、ζ(v19)和ζ(v22)置为1。

接着对层级1的节点v1、v3、v7、v10、v17、v36进行推理。按照类似的方法进行推理,具体见表4,推理结果为:节点{v3,v4,v17,v19,v22}保留在故障源候选集F中,而节点{v1,v7,v10,v36}则从故障源候选集F中剔除。这样,故障源候选集从初始的12个候选节点减少到8个节点,与常规HDG推理相比,故障诊断效率提高了33%。

表4 故障源候选集内各节点的有效性判断Tab.4 Validity judgment of nodes in fault source candidate set

然后对故障源候选集中剩余的节点{v3,v4,v5,v17,v19,v21,v22,v24}按照表3所示的统计次数以及各节点所属层级从高到低进行排序,得到各节点的故障概率排序为:v5、v3、v17、v4、v19、v21、v22、v24。

查找各节点所属的设备,节点v3、v4和v5属于设备d6(主份射频采样单元),v17属于设备d9(主份万兆交换机),v19和v21属于设备d11(主份数字信号处理单元),v22和v24属于设备d12(备份数字信号处理单元),因此设备执行故障隔离的顺序为d6→d9→d11/ d12。

从d6(主份射频采样单元)开始执行故障隔离,由系统管理软件下发主备切换指令给主备射频采样单元,关闭主份射频采样单元的光信号输出,启动备份设备采样单元的光信号输出。等待一段时间后,查看节点v21和v24是否仍有报警信息产生。若故障报警解除,说明故障隔离成功,故障源已定位,结束故障诊断流程,并输出诊断报告;若故障报警依然存在,则继续对下一个设备d9(主份万兆交换机)进行故障隔离,具体故障隔离处理流程见图8。

图8 案例二:故障隔离处理流程Fig.8 Case 2: Fault isolation process workflow

由案例一和案例二可知,基于EHDG模型的故障诊断方法既能解决单故障报警,又可以兼顾多故障报警的情况,将单故障和多故障以故障概率统一起来;同时,通过运用多种信息,自动分析可能的故障源候选点,剔除掉不符合的节点,将候选故障源限定在尽可能小的范围内。以北斗RDSS地面站为例的建模分析结果表明,案例一的单故障场景下故障诊断效率提高90%,案例二的多故障场景下故障诊断效率提高33%,极大提高了故障定位效率。通过自动主备切换或设备复位实现故障隔离,最终确定故障源。

3 结论

本文针对大型卫星地面站复杂电子系统设备故障诊断的需求,重点研究基于分层有向图模型的故障诊断方法,对故障在电子设备中产生、传播和影响的规律进行建模。为解决常规分层有向图模型在卫星地面站故障诊断过程中面临的一些问题,提出了增强分层有向图故障诊断方法:

1) 分析系统各种监测点的故障传播路径,合并具有相同有向流入或流出边的节点,以压缩模型中的节点数量,解决卫星地面站故障征兆多、信息量大、难建模的问题。

2) 模型中增加节点有效性使能函数,克服常规有向图模型中若某一设备由于故障原因切换导致系统结构发生改变时需要重新建模的问题。

3) 采用正向推理减小故障源候选集,并根据各节点被搜索次数给出设备故障概率,加速模型收敛速度,提高诊断效率。

为验证提出方法的有效性,以北斗卫星地面站RDSS信号收发系统作为实际诊断背景,建立了一套完整的软、硬件的故障诊断系统。通过案例分析,该方法能规避无效节点,能有效辨识未知故障,对单故障和多故障场景都能具有很好的鲁棒性。

猜你喜欢
有向图故障诊断分层
有向图的Roman k-控制
一种沉降环可准确就位的分层沉降仪
雨林的分层
超欧拉和双有向迹的强积有向图
有趣的分层
关于超欧拉的幂有向图
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断
高速泵的故障诊断
有向图的同构判定算法:出入度序列法