汽轮机故障链诊断与评估方法研究

2019-12-20 07:42:42顾煜炯孙树民

自动化仪表 2019年12期

杨楠，顾煜炯，孙树民，王仲

(1.华北电力大学能源动力与机械工程学院，北京 102206；2.华北电力大学国家火力发电工程技术研究中心，北京 102206)

0 引言

汽轮机故障智能诊断过程涉及数据采集与分析、故障诊断、维修决策、维修效果反馈这四个重要步骤。目前，已有大量文献对前两个步骤作了研究[1-7]。但这些研究普遍将设备的故障看作孤立的事件或模式，而非变化的过程。由于诊断结论未能充分描述故障的发生、发展过程和故障程度，且缺乏对结论可信度、故障起因、发展程度等因素的综合评估，在维修过程中需要进一步查找故障原因和评估严重程度，才能作出最合理的维修决策。因此，本文提出基于故障链诊断与评估的故障诊断与维修决策方法，将故障原因诊断、故障劣化程度、故障风险程度等决策信息，融入故障链严重程度指标计算过程。通过对比故障链严重程度，以降低设备运行风险为目标，制定最终故障排查顺序。

1 网络型诊断模型的建立

1.1 故障因果网的建立

设备从正常运行到出现故障状态，是一个从操作失误或设备隐患等原因发展为对设备性能或安全造成破坏性影响的过程。虽然故障的原因及影响具有随机性，但对故障原因和影响的分析有利于在故障后更准确地诊断出故障原因，以便采取针对性的维修措施；也有利于对设备故障风险的把控。本文采用故障树分析(fault tree analysis，FTA)和故障模式及影响分析(fault mode and effect analysis,FMEA)方法，对设备故障原因及影响进行分析。基于设备的结构、功能、操作等资料，以及对常见故障的试验数据分析和经验积累，经归纳和演绎，总结出设备产生各类故障的原因，以及对设备性能、监测数据等产生的影响及检测方法。

从故障发生发展过程来看，FTA是从“故障发生”向前分析“故障原因”的过程[8]，FMEA是从“故障发生”向后分析“故障结果”的过程[9]。

对于复杂系统的故障，分析步骤如下： ①确定分析范围，划分系统结构初步确定要分析的故障模式清单；②基于FTA “演绎法建树”，分析各层次故障原因；③基于FMEA，确定故障发生后影响的参数变化规律，即故障征兆。

将以上分析所得的故障事件间的因果关系定义为故障因果网络(fault cause and effect network,FCEN)，如图1所示。

图1 故障因果网络

以图形化结构，总结故障机理分析所得的诊断知识。第一层为故障原因层，是基于多个故障模式的FTA分析得到的故障树，并由其联立形成的网络结构，其中包含了故障模式的成因知识信息。第二层为故障模式层，是故障机理分析的核心，也是故障诊断的目标。第三层为故障特征层，是基于多种故障模式FMEA分析得到的故障影响，总结为监测、检修、试验等手段可获得的故障特征描述，形成的征兆集合。FCEN以关系型网络结构，将设备多类故障模式的成因、现象以及抽象名称有机结合，从设备功能、故障原因、故障后果、监测系统响应、检修现象等方面，尽可能全面地描述了设备所有可能的故障因果链。

1.2 FCEN转化为诊断模型

针对基于FCEN故障机理分析建立的特点，在将其转化为诊断模型时，作如下定义。

①先验概率。设备可靠性研究认为，设备发生故障是必然的,只是发生的概率有高有低。故障发生的概率近似地服从某种概率分布规律。本文中特指对故障原因R根据先验知识对其发生概率的估计，称为先验概率。

②条件概率。故障F(或征兆S)在故障原因R(或故障F)发生(或不发生)条件下出现的概率(或)。当转子发生不平衡故障(F1=T)时，该转子轴承水平方向振动超限(S1=T)的概率。以条件概率表(conditional probability table,CPT)，描述完整的条件概率。

③后验概率。在得知故障征兆S(或故障模式F)出现与否(或概率值)后，利用贝叶斯定理对故障模式F(或故障原因R)出现的概率进行修正，从而得到更符合当前情况的概率。

在以上定义的基础上，结合故障案例统计以及专家经验，即可将FCEN中的故障率、故障因果关系、故障与征兆的对应关系等诊断知识，表示为以先验概率、条件概率为基础的概率图模型，形成基于贝叶斯网络诊断模型。通过实时输入监测征兆状态、修正故障先验概率等在线设备状态信息，可推理出FCEN中各故障事件的后验概率，即在当前状态下各事件发生的概率P(F)。

2 故障因果链严重程度评估

对故障严重程度的评估研究，一般分为两个方面。①故障引起设备机械、电气、材料等特性变化的程度，例如转子裂纹故障中裂纹的深度，本文称之为故障物理劣化程度评估(physical deterioration degree evaluation，PDDE)。PDDE可通过分析状态监测得到的特征参数(如振动、温度等)间接获得[10-11]。②故障后引起部件、设备、系统性能的退化，以及对设备维修成本、停机损失、人员和环境危害的影响程度，称为故障风险影响程度评估(risk impact degree evaluation，RIDE)。RIDE更多的是从安全、成本、环保角度，通过故障影响分析及专家经验评估获得。但大部分RIDE方法只关注设备生产过程的静态风险，而忽略设备在运行和检修过程中的实时风险变化[12]。

PDDE在明确故障类型时可对故障作出合理的评估，而在线诊断结果具有不确定性。因此，PDDE的使用受到限制。就像在未确诊时，就单纯地以某一疾病的标志性指标评估患者病情严重程度，是不合理的。RIDE为预防性定期检修工作提供了有效的建议，然而设备运行中工况的变化、操作失误、突发异常等，会改变设备发生各类故障甚至停机的风险。单纯的预防性维修可能造成剩余检修或遗漏检修。因此，PDDE和RIDE对故障严重程度的评估各有优劣。为了在故障评估与决策中发挥各自优势，本文对两种方法进行了融合。

理想情况下，设备故障的发生和发展，会按照FCEN中规划的路径发展和传播。网络中每一节点从正常到异常的变化，都对设备产生不同的影响。根据RIDE，可定量评估网络中各节点事件的发生，对设备整体运行的影响。但是，实际诊断中，无法获得每个事件是否发生的准确结果，以及准确的故障原因。因此，结合故障诊断结果，以及PDDE中的劣化度评估指标，可以获得各独立故障事件的严重程度评估结果。由于故障的发生伴随着连锁故障反应，因此完整的设备故障评估，需要对所有可能故障传播路径的严重程度进行评估，从而找出严重程度最高，也就是故障风险最高的故障链。最终，以最大化降低设备运维风险为目标，及时处理或排除最严重的故障链。

2.1 故障独立严重度指标定义

2.1.1 独立严重程度指标

对于FCEN中单一的事件Fi，其严重程度可从静态风险度S、动态发生可能性O和实时状态C三个方面进行评估。定义故障独立严重度指标(independent severity index，ISI)，计算方法如下：

ISI=S×O+C×O

(1)

静态风险度S：主要指设备自安装运行后，如果故障发生，会对生产、安全、环保等造成损失的量化。

动态发生可能性O：以设备寿命周期内各故障节点发生的概率为基础，并随着设备运行状态的变化而发生变化。如：随着设备运行年限的增加，材料老化、疲劳等故障事件出现的可能性会增加；当有较多征兆现象指向某故障节点时，该故障事件的发生可能性增加。在本文诊断模型中，以上信息已转化为基于事件先验概率、故障征兆等信息，推理实时故障发生概率的过程。因此，动态发生可能性，即各事件在线诊断结果O=P(F)。

实时状态C：表示故障事件发生后的劣化程度。本文定义独立故障事件的状态反映在两个方面：①指标劣化度，指与故障直接相关的监测指标的劣化；②故障的扩散度，即以该故障为原因，对其他故障的发生及劣化产生的影响。

2.1.2 静态风险度S计算方法

静态风险度是故障模式、影响和危害性分析(fault mode，effect and criticality analysis,FMECA)中危害性分析(criticality analysis,CA)的定量化表示。在设备维修决策中，故障的危害性分析是维修决策的重要决定因素[13]。本文从以下三个方面计算静态风险度。①故障概率风险Su1:从风险量化的角度对故障概率进行评估，主要包含机组检修历史统计Su11和同型机组故障统计Su12。②故障损失风险Su2：从风险量化的角度对故障造成的经济损失进行评估，主要包含设备维修费用Su21和停产损失Su22。③故障维修风险Su3：从风险量化的角度，评估维修故障对设备可靠性的影响，主要包含故障处理水平Su31和可靠性水平Su32。

静态风险度S的评估采用专家评分，得到各因素的模糊综合评判矩阵，并通过层次分析法计算获得[13]:

S=R×A×C

(2)

式中：R为专家对三方面静态风险评估得到的模糊综合评判矩阵;A为三方面因素的权重矩阵;C为评语量化向量。

最终获得静态风险度为S∈(0,100)的实数，数值越高，表示静态风险越高。

2.1.3 实时状态C计算方法

单一故障Fi事件的状态评估Ci计算公式如下：

Ci=ICi+DCi

(3)

式中：ICi为事件Fi监测指标劣化度，ICi∈[0,100];DCi为事件Fi扩散程度DCi∈[0,100]。ICi和DCi都是[0,1]间是实数。当不存在监测指标时，ICi=0；当到达评估边界，即不存在子事件时，DCi=0。为保证故障在线监测状态的可评估性，在CA分析时，确保每个事件ICi和DCi不同时为0。ICi和DCi的计算方法如下。

①故障模式的监测指标劣化度计算ICi方法为:

ICi=α1cx1+α2cx2+…+αmcxm

(4)

式中：cx1,cx2,…,cxm为与Fi劣化相关的指标，且已根据历史数据统计及报警值设置等，归一化到[0,100]区间;α1,α2,…,αm为指标cx1,cx2,…,cxm对故障劣化度表征的权重。

(5)

综上可知，ISI计算流程如图2所示。

图2 ISI计算流程图

2.1.4 ISI计算示例

假设一个简化的故障诊断网络，其中各故障事件静态风险度S为SC1_1=50、SC1_2=60、SC1=40、SC2=70、SF1=40、SF2=30、条件概率为P(F1|C1)=0.85、P(F1|C2)=0.5、P(F2|C2)=0.75、P(C1|C1_1)=0.8、P(C1|C1_2)=0.7。故障模式F1和F2的指标劣化度为ICF1=50、ICF2=60。基于S1、S2等状态信息进行诊断时，诊断网络对各故障事件的故障概率计算结果为P(F1)=0.69、P(F2)=0.54、P(C1)=0.31、P(C2)=0.30、P(C1_1)=0.02、P(C1_2)=0.06。基于以上信息，各故障事件的独立严重程度指标ISI计算过程如下。

ISIF1=SF1×OF1+CF1×OF1=62.10

(6)

ISIF2=SF2×OF2+CF2×OF2=48.60

(7)

(8)

(9)

ISIC1=SC1×OC1+CC1×OC1=18.32

(10)

ISIC2=SC2×OC2+CC2×OC2=31.76

(11)

ISIC1_1=SC1_1×OC1_1+CC1_1×OC1_1=SC1_1×

(12)

ISIC1_2=SC1_2×OC1_2+CC1_2×OC1_2=SC1_2×

OC1_2=3.76

(13)

2.2 故障链严重程度与故障链检修

FCEN中总结了故障事件间的联系，可归纳出设备可能存在的故障链，即故障的演化过程。因此，本文提出故障链检修(fault chain maintenance，FCM)，并通过分析不同故障链的严重程度，将传统的以点为维修对象，拓展为以链为维修对象。由于故障独立严重程度指标ISI计算过程中，已将故障间的相互影响折算到其自身的独立严重程度指标计算中。因此，对于一个具有K个故障节点的故障链l=[F1,F2,…,Fk]，定义其故障链严重程度LSIl，为链上所有故障节点的独立严重程度ISIFj的和：

(14)

式中：ISIFj为故障链l中的事件Fj的独立严重程度指标。

如图2所示诊断网络中，排除故障征兆层，则其存在着四条可能的故障链L={[C1_1,C1,F1],[C1_2,C1,F1],[C2,F1],[C2,F2] }={l1,l2,l3,l4}}。根据2.1节计算结果和式(14)，四条故障链严重程度为：

LSIl1=1.02+18.32+62.10=81.44

(15)

LSIl2=3.76+18.32+62.10=84.18

(16)

LSIl3=31.76+62.10=93.869

(17)

LSIl4=31.76+48.60=80.36

(18)

通过对故障链严重程度指标LSI的对比，建议依据故障链l3→l2→l1→l4的顺序，对故障进行排查。

2.3 与PM和CM的对比

当前机组采用的检修方案主要采用定期预防检修(preventive maintenance,PM)和状态维修(condition maintenance,CM)两种方法。PM根据故障静态风险S，可提前制定检修计划，但容易产生维修过剩、失修等问题。传统的CM依据监测数据得到的各故障可能性O，针对高可能性故障进行维修。其缺点是过渡依赖诊断结果，可能遗漏对高风险故障的排查。

维修剩余风险变化趋势如图3所示。

图3 维修剩余风险变化趋势

如不考虑故障劣化程度，仅从降低设备故障风险的角度对比维修策略的好坏，可认为在故障排除前每一次错误的故障排查，并非维修过剩。如果没有及时排查高风险故障，会造成设备风险始终处于较高水平。因此，本文定义维修剩余风险，间接反映维修策略在降低设备风险方面的优劣：维修剩余风险=设备未排除故障静态风险S×故障可能性O。

以2.1.4节中诊断对象为例，假设设备仅有5种可能的故障事件，分别采取PM、传统CM和FCM方法，制定故障排查顺序。PM排查顺序为[C2,C1_2,C1_1,C1,F1,F2],传统CM排查顺序为[F1,F2,C1,C2,C1_2,C1_1]。如FCM对故障链的检修建议，转化对故障点的排查顺序是[F1,C2,C1,C1_2,C1_1,F2]。

其中，经前三次检修， FCM与传统CM对降低维修剩余风险效果明显，而PM由于首先对静态风险高、可能性较低的故障进行排查，造成维修剩余风险居高不下。FCM每次维修建议是完整故障链，如按照一次检修完成一条故障链的方式排查故障，则会进一步降低每次维修后的剩余风险。

3 实例分析

国内汽轮机弯轴事故统计中，86%是由转轴碰磨引起的[14-15]。碰磨故障有时是因为设计不合理、运行中系统膨胀不畅导致的，还有一些是由于安装、制造误差，汽缸、油档等材料或热处理不合格造成的。这些原因除了会引起碰磨故障之外，还可能引起其他故障，且维修方案难易不同。因此，碰磨故障的诊断与维修决策，对汽轮机安全经济运维具有重要意义。当机组发生碰磨时，因部位的不同，会采取不同的维修措施。例如轻微的轴封碰磨会采用低速磨合，而浮动油档碰磨则需停机更换油档等。因此，碰磨类型的准确判断，对于维修决策起着重要作用。经过FMEA分析，汽轮机碰磨故障主要存在以下几种模式：轴封碰磨、固定油档碰磨、浮动油档碰磨、轴瓦碰磨以及轴向碰磨。

首先，建立碰磨故障因果网络FCEN，并转化为BN模型。然后，基于2.1节中静态风险评估方法，对网络中各事件的静态风险进行评估。

由于同属碰磨故障，引起转子振动异常的现象相同，现有文献中也少有区分。本文中碰磨故障引起的征兆(RUB_Symptom)，参照文献[9]所用征兆，RUB_Symptom={ S1：相位(波动)，S2：1倍频(超限)，S3：2倍频(超限)，S4:振幅趋势(波动),S5：低频(超限)，S6：高频(超限)}。同样地，由于6类碰磨故障引起的振动监测信号相同，因此劣化度指标由1倍频幅值计算获得。基于故障信息，本文以实际碰磨案例进行诊断，并提出维修决策建议。

文献[16]记载了某机组带负荷过程低压缸碰磨故障。该机组为西屋公司350 MW亚临界机组。初步对振动、运行数据和各种现象进行综合分析，现场人员首先得到3号轴承水平方向振幅值和相位波动、1倍频幅值偏高3个征兆，形成推理证据集E1；然后发现低压缸外缸两侧温差达25°～30°，作为新增证据形成证据集E2。分别将证据集E1和E2输入诊断决策模型进行推理。同时，基于1倍频振幅最高达130 μm，评估故障的劣化度为40。

汽轮机碰磨故障因果网及静态风险度如表1所示。

表2总结了两次诊断对6种故障模式的发生可能性的推理结果，以及相应的最优故障链检修建议。

表1 汽轮机碰磨故障因果网及静态风险度

表2 故障推理结果与检修建议

在第一次推理中，由于仅有振动征兆，比较故障模式推理结果，除断油烧瓦发生可能性较低外，其他几种碰磨故障的发生可能性都较高，且维修决策建议的故障链严重程度也比较接近。

经第二次推理，由于补充了“C02_3汽缸温差大”这一证据，推理结果显示最可能的故障模式为“FM01汽封碰磨”。维修决策建议表明，故障的可能原因链为：低压缸因温差大，造成缸体变形，进而引起低压缸轴封碰磨故障。

根据案例中后期处理措施描述，采取低压缸内外缸空间检查，以及低负荷磨大间隙的措施，使低压缸振动故障得到了抑制。由此可见，第二次推理得出的故障链检修建议与现场诊断结果完全相符，证明本文方法可为实际检修工作提供有效建议。

4 结束语

本文提出了一种基于故障链诊断与评估的维修决策方法。通过故障因果网络构建诊断模型，以诊断故障链代替传统的故障模式诊断。将故障劣化度和故障静态风险评估结合，定义了故障链严重程度计算方法，以降低设备运维风险为目标，对故障链进行检修排序。

与传统的预防性维修和只依赖诊断结果的状态维修方法相比，本文方法可在较少维修次数下降低维修剩余风险。最后，对实际汽轮机碰磨故障进行测试。测试结果表明，基于故障链严重程度的建议维修决策，与实际故障排查结果吻合。本文方法不仅针对故障模式，还包括具体的故障发展过程，可为实际检修工作提供更详细的维修建议。