一种检验测试覆盖率的定义方法及其马尔可夫验证

2023-02-25 07:12庞欣然朱杰宋晓鹏刘黎朱玉程
石油化工自动化 2023年1期
关键词:功能块失效率马尔可夫

庞欣然,朱杰,宋晓鹏,刘黎,朱玉程

(浙江中控技术股份有限公司,浙江 杭州 310053)

文献[1-2]指出,安全仪表系统(SIS)要求时的平均失效概率(PFDavg)随着运行时间的增加逐渐增大,超过标称安全完整性等级(SIL)所对应的最大PFDavg后,其SIL等级也会随之降低。检验测试是对SIS在线故障诊断措施的必要补充,主要针对在线诊断无法覆盖的电路及失效模式,完全检验测试可以大幅降低PFDavg至标称SIL等级要求范围内。因此,定期开展检验测试是保证SIS的SIL等级的必要活动。文献[3]提出,应在项目的设计阶段和操作维护阶段要求中指出为保证SIS的SIL等级所需要的检验测试周期(TI)、计划与规程;还提出在具有安全完整性要求的回路及相关控制回路中,需要参照SIS功能开展检验测试;另外还提出企业应在评估基础上,制定SIS管理方案和定期检验测试计划。文献[4]提出一种专门应用于SIS的检验测试方法,可以有效测试SIS现场运行稳定性和工业现场的安全性。因此检验测试对于保证SIS安全、可靠的运行有着重要意义[5]。

目前已有成果仅是研究检验测试对PFDavg的影响,国际上尚未有规范性标准统一指导供应商开展SIS的检验测试,导致各供应商对检验测试存在着功能定义不清晰、测试覆盖不全面、测试影响面分析不充分等诸多问题。本文以单卡三重化系统架构[6]的模拟量输入系统为例,基于FMEDA分析提出了一种检验测试覆盖率(CPT)的定义方法,并提出多种提高CPT的有效方法,然后在综合考虑多失效模式、故障诊断、系统维修和检验测试的情况下,结合马尔可夫模型[7]对单卡三重化系统建模,分析不同CPT下的检验测试对PFDavg的影响。

1 检验测试覆盖率定义方法

失效模式、效果和诊断分析(FMEDA)是一种国际上普遍采用的“自下而上”的分析方法[2],它通过分析单个元件的失效来进一步分析该失效对系统的影响[8]。通常可将失效分为安全可检测失效(SD)、安全不可检测失效(SU)、危险可检测失效(DD)以及危险不可检测失效(DU)[9]。

分析一种单卡三重化系统架构的模拟量输入系统,以功能块为单元,将该模拟量输入系统拆分为可靠性框图,如图1所示,该可靠性框图可以覆盖到整个系统的每一个元件。

图1 模拟量单卡三重化系统可靠性框图示意

图1中实线框的功能块涉及系统功能安全,其DU失效会影响系统的PFDavg,虚线框的功能块不涉及系统功能安全,检验测试只针对会影响到系统功能安全的DU失效。基于上述可靠性框图,按照名称、失效率、失效模式、失效模式百分比等项目对每一个功能块的每一个元件开展FMEDA分析。其中,名称为元件类型,失效率、失效模式、失效模式百分比和模式失效率由WQS软件导出。

根据对电路的分析、仿真和测试得到该元件失效对功能单元和系统的影响,根据影响确定失效分类,若为危险失效,确定危险失效百分比,然后判断是否有诊断措施、失效处理,以及诊断覆盖率大小,计算出该元件的安全失效S,危险失效D,以及SD,SU,DD,DU失效,最后统计出该功能块和整个系统的失效率,FMEDA分析结果见表1所列,检验测试只针对DU失效,所以表1中只列出与DU相关数据。

表1 功能块FMEDA分析结果

从表1中可以得到不同功能块的DU失效在系统DU失效中的占比,CPT可定义为DU失效在检验测试中被检测到的概率,如式(1)所示:

(1)

式中:DUi——检验测试可检测到的DU失效;DUj——检验测试检测不到的DU失效;Ek——针对该DU失效的检验措施有效性。

提高CPT即提高检验测试对表1中DU失效功能块的覆盖率,对表1中存在DU失效的功能块,定位到FMEDA分析过程中失效分类为危险的失效模式,可以针对所测元件的该失效模式检验,确保在线检测未检测到的DU失效可以被检验测试检测到,基于该定义方法提出以下措施:

1)信号量程扫描。输入全量程5%,25%,50%,75%,90%的测试信号给该模拟量输入系统;检验测试工具软件分别读取单通道的两部分数据: 原始ADC数据、基准值、校准参数;通过微控制单元(MCU)计算后的采样数据adcX1,adcXV1和诊断比值。工具软件根据第1部分的原始数据独立计算采样值,再与adcX1和adcXV1比较,以此判断单通道或通道之间是否存在采样回路的故障、精度偏差、诊断功能故障。通过多样性计算和比较测试措施能有效检测信号输入、信号处理、通道间硬件共因失效以及采样信号的诊断措施。

2)电源输入扫描。使用外设可调电源接入该模拟量输入系统的供电端口,并调整电压来检测系统内部电源及诊断措施。但是,受系统内部的供电拓扑以及分级电源的诊断,该检测措施并不能检测所有分级电源。

3)MCU复位测试。通过软件工具触发MCU主动进入复位状态,启动对MCU的内核、寄存器、VIM、GIO口、内存空间、总线、时钟、MPU等安全相关组件的检测,实现对MCU及其组件的软硬件检测。该方法对于软失效引起的数据错误同样有效果,让连续运行的MCU重新启动,消除所有累计的故障。

4)系统降级测试。对于多重化(如三重化)架构的系统,由于表决机制的存在,由共因失效[10]导致的系统故障无法被系统检测诊断,当系统降级为双通道或单通道时,该类故障才会被诊断到。因此通过工具软件主动触发系统降级,检测系统在降级工作时(非正常工作状态),系统的各项安全功能和诊断功能,如数据比较、表决算法、安全任务、安全相关任务、安全回路处理等是否满足设计要求。

5)健康数据监测。持续监测该模拟量输入系统内部安全相关组件的运行健康数据并进行统计、分析和模型预测,目的是捕获曾经发生暂时性故障或者永久性故障的信息,并分析推导可能的原因,如: 环境温度、软失效、硬件随机失效、外部信号的不稳定性。或者确认系统健康运行的发展趋势,如: 健康数据均无异常,系统一致运行评估优秀。该模拟量输入系统可监测电源电压、程序异常统计、任务执行、CPU运行负荷、MCU的内核、VIM、GIO口、寄存器、内存空间、总线、时钟、MPU的丢包数据、阈值上下限、异常计数、负荷波动等。该措施可以认为是对系统基于时空角度的二次元检验测试,是对当前触发方式检验测试措施的互补,两者相互结合可大幅提高系统检测的效率和置信度。

对表1中存在DU失效的功能块,表2提供了相应的检验测试措施,点检测试和检验测试功能块覆盖情况见表2所列。

表2 点检测试和检验测试功能块覆盖情况 %

从表2可知,针对该模拟量输入系统所提出的检验测试措施可以覆盖所有功能块,对于内部电源及诊断功能块的检验测试,电源输入扫描仅实现了总电源的诊断有效,无法检验分级电源,故该检测测试措施有效性为20%,基于公式(1)计算可得该检验测试的CPT可以达到90%。

为了证明提高CPT可以降低系统PFDavg,本文基于单卡三重化系统,利用马尔可夫模型,仿真不同CPT和检验测试周期下系统的PFDavg情况。

2 马尔可夫建模

在进行马尔可夫建模时,作出以下假设[11]:

1)单个通道的失效率为λ,危险失效率为λD,安全失效率为λS,维修率为μ0,诊断覆盖率为C,共因失效因子为β,且仅考虑系统2个模块或通道的共因失效。

2)各个模块或通道的设计完全相同,即上述各参数均相同且是常数。

3)系统发生安全失效而导致误动作后,系统被修复并重启的维修率为μSD。

4)检验测试检测到在线诊断未检测到的失效时,系统可以被立即修复并重启。

对正常运行状态下的单卡三重化系统进行建模,其马尔可夫模型状态转换如图2所示。

图2 单卡三重化系统的马尔可夫模型状态转换示意

其马尔可夫状态含义见表3所列。

表3 单卡三重化冗余容错系统的马尔可夫状态及含义

令P(t)=[P0(t),P1(t),P2(t), …,P11(t)],由马尔可夫状态转换图可以得到状态转换矩阵Q=G+I,I为11维的单位矩阵,则系统满足式(2)所示的状态方程[4]:

P′(t)=P(t)G

(2)

由状态转换图可得状态转移密度矩阵G,如式(3)所示:

(3)

将式(3)中状态转移密度矩阵系数a0, 1,a0, 2, …,a10, 0带入初始条件P(0)=[1, 0, 0, …, 0]求解方程(2),可以得到t时刻各个状态的概率,由此可得: 假设系统运行一段时间后进行检验测试,且检验测试为瞬时,此时系统状态为P(t),系统在检验测试期间的状态转换矩阵如式(4)所示:

(4)

从表3可知,状态3和状态7也有未检测到的危险失效,但同时也有检测到的失效,由于在线诊断的时间间隔更短,当系统诊断到失效后就会被修复并重启,因此检验测试不需要考虑这两种状态。

杨宗祥曾经说过“企业家应以人为本来管理企业,董事长及高管、班组长不可能天天去当操作工、开挖机,这些行业的员工很辛苦,企业家要将心比心,解决员工后顾之忧,企业才能获得长远的发展”。为员工购买社会保险,遭遇金融危机工资不降,开发物业成本价基础上还发放补助金保证职工有房住,员工的工会活动经费总是第一时间达到,外加中午免费的午餐。公司各项福利水准在安宁当地也算上乘,绝大多数员工能安心本职工作,公司还为职工新建500套经济适用房,3000多名职工安心本职作业,多年来企业人员流失率始终保持在5%以下。

检验测试结束后,系统状态P(t)=P(tPT)·K,之后继续以状态转移密度矩阵G进行状态转移直到下次检验测试。

系统在要求时平均失效率:PFDavg=p6(t)+p7(t)+p8(t)+p9(t)。

3 仿真分析

当TI=1 a,仿真得到不同CPT下单卡三重化系统的PFDavg如图3所示。

图3 TI=1 a时不同CPT下的PFDavg示意

当TI=2a,仿真得到不同CPT下单卡三重化系统的PFDavg如图4所示。

图4 TI=2 a时不同CPT下的PFDavg示意

当CPT=95%,仿真得到不同TI下单卡三重化系统的PFDavg,如图5所示。

图5 CPT=95%时不同TI下的PFDavg示意

当CPT=60%,仿真得到不同TI下单卡三重化系统的PFDavg,如图6所示。

图6 CPT=60%时不同TI下的PFDavg示意

对比图5和图6可以得到,增加检验测试频率和提高CPT都能有效降低PFDavg,TI=5 a时,PFDavg可以降低到没有检验测试的66.7%左右;当TI=2 a时,PFDavg继续降低至没有检验测试的25%左右;TI减少到1 a时,PFDavg大幅降低,达到没有检验测试的11%左右。

4 结束语

本文以单卡三重化系统架构的模拟量输入系统为例,基于FMEDA分析提出了一种CPT的定义方法,并提出多种可以提高CPT的有效方法,然后在综合考虑多失效模式、故障诊断、系统维修和检验测试的情况下,结合马尔可夫模型对单卡三重化系统建模,引入CPT开展仿真分析,结果表明,该CPT的定义方法是合理和有效的,基于该定义方法提出的措施可以有效提高CPT,具有高CPT的检验测试可以大幅降低SIS的PFDavg,因此,提高CPT,并合理增加检验测试频率可以在SIS使用期间内大幅降低PFDavg,该CPT定义方法和仿真结果对于指导用户制定检验测试策略有重要作用。

猜你喜欢
功能块失效率马尔可夫
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
Ovation系统FIRSTOUT和FIFO跳闸首出比较
保费随机且带有红利支付的复合马尔可夫二项模型
自定义功能块类型在电解槽联锁中的应用
基于SOP的核电厂操纵员监视过程马尔可夫模型
应用马尔可夫链对品牌手机市场占有率进行预测
基于MACSV6.5.2的锅炉燃尽风开关量调节门控制功能块设计
固体电解质钽电容器失效率鉴定