刘君发,胡文皖,胡鹏
(福建宁德核电有限公司,福建福鼎,355200)
某核电厂分散控制系统(简称DCS)根据设计安全等级不同划分为NC级(非安全级)及1E级(安全级),尽管二者可以各自独立的与其对应安全等级设备进行联动,但共用了同一人机交互平台,因此不可避免的要进行数据交互[1]。
根据交互数据类型的不同,在NC/1E侧分别配置有三对网关,依次命名为L1a网关、L1b网关、L2网关。三种网关根据交互数据类型的不同软件配置上存在细微差异。从设备运行可靠性角度考虑,设计上对每一种网关都是冗余配置的。网关冗余配置的类型为主从冗余,即一台工作为主机、一台工作为从机,主从机均分别从对侧网关接收数据但仅由主机向人机界面传送数据。主从机间通过专用网络“R网”彼此进行数据读取、传输,以识别主从状态及网关运行情况。当主机发生故障时,从机自动升为主机来执行数据传输功能。因此,“R网”运行状况的好坏直接决定了主从冗余网关互为备用状态的稳定性。
本文将结合某核电厂实例对主从冗余网关“R网”故障的模式进行分析,并给出贴近生产现场的维修策略。
2020年9月25日07:02:52,主控制室触发1KCS006KA2(报警名称),至8:33:30恢复,1KCS006KA2持续1.5小时,期间全日志(记录所有事件信息的列表)伴随有“61号非安全级网关(L1b网关)R网故障”(闪发1s/次,共计4次)。全日志信息如图1所示。
图1 9月25日1KCS006KA2报警触发全日志
同样故障现象,分别在9月25日11时、9月26日11时、9月26日22时、9月27日6时出现,区别仅在于1KCS006KA2持续时间不同。
1.2.1 1KCS006KA2报警触发原因
1KCS006KA2为B列KCS机柜综合故障报警,故障点需结合全志日比对就地机柜进行定位,最终定位为1E侧L1b-GWP-B(安全级侧B列网关)故障报警。
读取1E侧网关日志,如图2所示。
图2 9月25日1KCS006KA2报警触发KCS网关日志
日志记录了07:02:50,1E侧L1b-GWP-B网关接受到NC侧送去的“L1bgwpb NC-GWP-RecvstatusFailuer”即“NC侧L1b-B网关状态故障”信息,1E网关再通过通讯反馈到NC侧触发报警。
因此,1E侧L1b-B网关收到NC侧L1b-B网关状态故障信息是1KCS006KA2触发的原因。
1.2.2 1E侧L1b-B网关收到NC侧L1b-B网关状态故障原因
1KCS006KA2触发期间,全日志闪发4次“61号非安全级网关R网故障”,除此之外未记录到NC侧L1b网关A/B机相关任何故障信息。
查询趋势(如图3所示),发现在1KCS006KA2触发期间,NC侧L1b网关计数器(一种网关自加运算程序)计算速率明显降低,且NC侧L1b网关A/B机CPU负荷均有一定程度的降低。
图3 9月25日1KCS006KA2报警期间计数器及CPU负荷趋势
根据网关设计原理,主从冗余网关设计有用于监视彼此状态的网络—即“R网”。NC侧L1b网关A/B机通过“R网”实时传送“数据包”用于彼此状态监视,当“R网”出现故障但未彻底断开时,冗余主从机间数据交互会存在丢包现象。当“数据包”丢包率达到预设阈值时将在全日志报出“61号非安全级网关R网故障”,同时将由从机发送“NC侧L1b-从机网关状态故障”数据包至1E侧网关,告知对侧本机存在故障。
冗余主从机间数据交互丢包到达阈值时将触发“冗余超时”故障,设计机制会将网关运算周期自动降速,由原来的50ms降至500ms,表现出来的现象就是网关计数器计算速率降低、网关CPU利用率降低带来的负荷下降。
因此,NC侧L1b网关“R网”故障是导致1E侧L1b-B网关收到NC侧L1b-B网关状态故障的原因。
汇总全日志及1E网关日志,形成1KCS006KA2报警时序流如表1所示。
表1 9月25日1KCS006KA2报警时序流
L 1 b g w p b时间更新成功(L 1 b g w p b T i m e-C h a n g e-F a i l e d r e c o v e r e d)8:3 3:3 0 K C S 0 0 6 K A 2报警恢复(K C S L 1 b g w p b A l a r m)
不难发现时序流中存在两个异常信息:
(1)1KCS006KA2报警是持续性的,而“61号非安全级网关R网故障”是闪发的;
(2)7:45:20,1E网关日志显示1E侧L1b-B网关已收到NC侧L1b-B网关状态故障的复位信息,但1KCS006KA2报警的恢复确发生在8:33:30。
这是因为,“R网故障”出现后立即发送信息给1E侧网关,进而触发1KCS006KA2报警。而从“R网故障”到全日志记录到“R网故障”是需要经过滤波时间,如“R网故障”触发时间小于滤波时间则全日志不会记录到“R网故障”,只有触发时间大于滤波时间的“R网故障”才会记录进全日志。
1E侧L1b-B网关收到“NC侧L1b-B网关状态故障”导致的报警恢复条件:一是要“NC侧L1b-B网关状态故障”复位,二是要1E侧网关“时间更新成功”。1E侧网关更新时间的机理是每个整点的第33分30秒向NC侧网关比对并更新时间。由于NC侧L1b网关“R网”故障导致在7:33:30 1E侧L1b-B网关更新时间失败,需要等到下一个整点的第33分30秒即8:33:30才能再次触发时间比对并更新,1E侧L1b-B网关再次向NC侧网关比对并更新时间,此时NC侧L1b网关“R网”故障已恢复,时间更新成功进而1KCS006KA2报警复位。
上述两条看似异常的信息,实际与“R网”故障及1E网关报警复位机理相符。
1.2.3 NC侧L1b网关“R网”故障原因
NC侧L1b网关“R网”用于主从冗余网关监视彼此状态,由主从冗余网关的“R网”网卡、网线、光电装换卡、光纤、光纤分配单元组成。
结合全日志信息、KIC趋势信息及1E侧网关日志信息,可以定位到1KCS006KA2报警触发原因是NC侧L1b网关“R网”故障。但由于“R网”故障时间远短于报警实际触发时间且“R网”故障为闪发式,很难定位到“R网”具体故障点,因此采用故障树模型对所有可能故障点进行分析并制定对应检修策略[2],故障树模型如图4所示。
图4 NC侧L1b网关“R网”故障树模型
综合以上分析,1KCS006KA2报警触发原因为NC侧L1b网关“R网”故障,涉及四项可能故障点,依次为:
(1)光纤公/母头进灰、脏污导致衰减率异常;
(2)L1b-B机R网网卡故障;
(3)L1b-A机R网网卡故障;
(4)光电转换卡故障。
根据NC侧L1b网关“R网”故障树分析结论,制定了三步走维修策略:
第一步:检查光纤公/母头有无脏污,对比测试光纤回路清洁前后衰减率,定位或排除光纤异常故障原因;
第二步:更换L1b-B机及本侧光电转换卡;
第三步:更换L1b-A机及本侧光电转换卡。
考虑到运行对机组控制的安全性及稳定性要求,合并执行第一步、第二步,执行后观察,如再次出现NC侧L1b网关“R网”故障则执行第三步维修策略。
检修策略执行:
检查光纤公/母头,未发现有明显脏污情况;使用衰减率测试仪对比光纤清洁前后指标,无明显差异,可排除“光纤脏污”原因。
更换L1b-B机及本侧光电转换卡,未再次闪发NC侧L1b网关“R网”故障。
单独对更换下的光电转换卡拷机,未发现异常;单独对更换下的L1b-B机拷机,R网偶现丢包情况,因此故障点定位为L1b-B主机故障。
主从冗余网关广泛应用于核电站DCS系统,而“R网”作为主从监测机制落地的载体,其重要性不言而喻。由于“R网”链路涉及环节众多,且故障模式多种多样,因此定位闪发故障的困难度是较高的。基于核电站对运行安全性、稳定性的要求,结合故障树模型的分析方式,可快速恢复设备运行可靠性,通过技术手段对脱离系统连接的离线设备进行技术检测最终定位故障点也不失为良策。