王 新
(中核检修有限公司连云港分公司 维修部,连云港222000)
核电站仪表控制系统的发展主要经历了3 个阶段:第一代核电仪控系统采用模拟技术;第二代核电仪控系统采用集成电路技术;第三代核电仪控系统是现今国际上广泛应用的计算机处理技术和网络平台的数字化控制系统,也称集散控制系统。某核电站一期工程的仪控运行仪控系统采用德国西门子公司研发的集散控制系统(DCS)系统,该系统属于典型的三代分散式集控系统,本文通过对某核电站仪控集散系统机柜故障导致停堆事件进行分析,得出造成此事件故障的原因为自动处理器(AP)同时故障。此类事件为国内外核电厂首次发生,之前尚无相关研究成果和优化措施。通过采取仿真平台试验、环境检测等手段,还原系统故障,得出了事件的原因,运行环境不良导致自动处理器机架背板电子元器件存在电化学腐蚀(氯、硫)和物质迁移,机架背板电路板电路短路,触发集散控制逻辑系统连锁保护。制定针对性的优化改进措施和维护策略,有效地保证机组集散系统安全稳定运行。
核电厂集散控制系统(DCS)作为电站正常运行仪控系统,负责电站生产过程的控制和监测,是数字化仪控系统的核心[1]。该系统用于某核电站工艺过程中的监测和控制,系统结构简图如图1所示。核电站仪控分散式集控系统控制着整个电站电能生产的过程,并在正常运行以及各种异常工况下维持电站的安全、稳定、可靠运行。自动控制系统的结构与工艺结构相一致,形成能清晰反应电厂生产过程的流程。
图1 正常运行仪控系统结构简图Fig.1 Structure diagram of normal operation I&C system
某核电厂一期集散控制系统(DCS)正常运行仪控系统共有65 个过程控制机柜,是集散控制系统与工艺过程的接口,主要完成以下功能[2]:
将采集到的现场各种工艺状态参数信息通过电厂总线送到其它过程控制机柜,用于其它过程控制逻辑。
将采集到的现场各种工艺状态参数信息通过电厂总线和终端总线传送至主控室操作终端(OT),为操纵员提供现场工艺过程的信息显示和判断。
通过终端总线和电厂总线接收来自主控室操作终端(OT)的操作命令,并将控制命令下达至执行机构,实现对现场工艺过程的人工控制。
本次故障的原因为CRD11 机柜内自动处理器两侧CPU 停运,为了对问题进行充分的分析,以制定根本性的解决优化措施,需要对事件根本原因进行分析。通过排除法对缺陷进行排查,正常运行仪控系统CRD11 机柜自动处理器模件发生故障的影响因素包括:环境因素、机柜硬件、处理器逻辑。通过分析故障现象和结合已有经验,认定机架问题,更换整套自动处理器模件机架,将现场故障机架带回实验室进行故障诊断和分析,更换新的处理器机架,问题得到解决。在实验室通过电镜对机架电路板进行扫描和元素分析得出,集散控制系统运行环境不良导致自动处理器机架背板电子元器件存在电化学腐蚀(氯、硫)和物质迁移现象,如图2所示。造成CRD11 机柜内处理器机架背板电路板电路故障,导致集散控制系统CRD11 自动处理器A 侧的BASP 信号的控制引线与接地端(M)之间存在漏电,引起CRD11 自动处理器A 侧禁止输出(BASP)信号不稳,致使CRD11 自动处理器A 和CRD11 自动处理器B 先后停运,触发机柜内相应逻辑保护。确定CRD11 机柜所在房间环境设计不合理,导致机柜硬件加速损坏,最终导致事故发生。
图2 电化学腐蚀(氯、硫)和物质迁移Fig.2 Electrochemical corrosion(chlorine,sulfur)and material migration
通过排查CPU 相关设备,进行机柜自动处理器A 侧CPU 复位、两个CPU 模件通讯的模件更换,问题未解决;排查更换与安全仪控系统优选控制的通讯模件,自动处理器短暂恢复正常后再次发生故障;最终通过更换CPU 机架,CRD11 故障消除。最终确定事件的原因为CRD11 处理器机架故障。
柜内测点包含1 号蒸汽发生器主蒸汽压力信号LBA10CP912。受此影响1 号蒸汽发生器窄量程液位计测点JEA10CL813Y、JEA10CL823Y 和JEA10CL833Y 因失去主蒸汽压力修正显示值突升,继而导致由上述3 个信号经三取二合成的1 号蒸汽发生器窄量程液位信号JEA10CL913 突升了0.18 m。JEA10CL913 作为被调量参与1 号蒸汽发生器液位调节器JEA10DL001 的调节,信号的突升给调节器引入了一个阶跃干扰,引起调节器振荡,蒸汽发生器给水调节阀LAB10AA211 开度开始波动,1 号蒸汽发生器液位信号也随之波动。1 号蒸汽发生器液位升高至额定值以上0.3 m,触发1 号蒸汽发生器给水隔离逻辑保护,保护关闭该蒸汽发生器主给水截止阀,随后液位开始下降。1 号蒸汽发生器液位降低至额定值以下0.5 m,保护切除1 号主泵。1号蒸汽发生器液位下降至额定值以下0.65 m,触发反应堆停堆逻辑保护信号,机组停堆停机,如图3所示。
图3 逻辑关系与事件图Fig.3 Logical relation and event diagram
通过上述对事件序列进行分析,确定软件逻辑设计不合理,导致主工艺参数波动,最终导致反应堆跳停。综上所述,为了提高集散控制系统的可靠性,必须对仪控机柜的的环境、硬件、软件逻辑进行优化。
对机柜间环境因素进行研究,包括粉尘、温湿度、热释放量、通风,制定了相应的优化措施。
温湿度优化:增加机柜间温湿度报警装置和加湿机、除湿机,使机柜房间内的温度和湿度得到有效控制。机柜间温度夏季控制在(23±3)℃、冬季(20±3)℃,湿度控制在35%~75%,温度变频率<5 ℃/h不得结露,温度报警阈值≥28 ℃报警,湿度报警阈值≤35%和≥75%报警,增加相应的加湿和除湿设备,添加除湿机和加湿器,当夏季来临时TXP 机柜间的相对湿度超出范围制定的范围,投运除湿器对机柜间进行响应除湿,保证机柜间的绝对温度在要求范围,当冬季来临时TXP 机柜间的相对干度超出范围,投运加湿器对机柜间进行相对的湿度调节。防止因为温湿度的影响造成电子设备、电子元器件腐蚀和漏电的影响。
通风系统优化:优化了通风系统风量不均的情况,使机柜间的通风更加合理。机柜间通风管道出口总量为10800 m3/s,原机柜间的4 个通风口出口风量不均匀,出口最高7000 m3/s 和出口最低1100 m3/s,修改成4 个通风口出口风量均匀,每个通风口风量为2700 m3/s 左右,避免机柜内设备受到长时间大风量的风吹。
机柜外观优化:在机柜上方增加盖板和在下方通风口增加滤网,降低了粉尘进入机柜。原空调出口通风风量较大,且CRD11 机柜是靠在墙体侧,CRD11 机柜上部由铁丝网组成,下部通风口没有滤网,通风吹到墙体直接折射到机柜内,在机柜上方增加一个盖板,下方增加滤网,降低空调通风直接吹入机柜内,有效防止房间内被通风吹起的粉尘落入机柜内。可以有效减少金属粉尘落入到机柜模件上,改良机柜运行环境,提高设备可靠性。
2.2.1 逻辑风险分析
针对此次停机停堆事件,对机柜故障进行逻辑分析,对集散控制系统内重要合成信号进行了筛查,筛选出600 多个重要合成信号,排查梳理出14个对机组功率运行期间影响较大的信号,将造成停机停堆的合成信号进行优化,合成信号模拟量输出信号不在同一自动处理器时,若发生自动处理器故障,其输出的模拟量信号为0 时,则将对模拟量信号作为主调量、参与控制对象修正或者前馈运算的控制回路造成扰动的情况。
2.2.2 整改措施原则
2.2.2.1 合成信号所在的AP 故障时故障后果可接受
当合成信号所在的AP 故障时,如下两种情况对机组的稳定运行状态无明显影响,故障后果可以接受:
(1)执行机构与模拟量合成信号在同一AP 时,若AP 故障,设备保持当前状态,正常运行仪控系统失去逻辑控制;对优选控制的设备,不影响安全功能的执行;
(2)执行机构与数字量合成信号不在同一AP时,若AP 故障,其输出至其它AP 的信号变为0,设备保持当前状态;若模拟量合成信号的有效位送至调阀控制功能块的外部故障位,则调阀退出自动。
2.2.2.2 合成信号所在的AP 故障影响机组稳定运行状态
根据控制逻辑的不同将故障情况分为两类:
(1)当模拟量合成信号与控制对象不在同一AP时,若AP 故障,其输出至其它AP 的模拟量数值为0,则将对模拟量信号参与控制对象修正或者前馈运算的控制回路造成扰动;
整改措施:
对模拟量信号参与控制对象修正的合成信号,将三取二模拟量合成运算功能移至闭环控制逻辑或者执行机构驱动逻辑所在AP;
对模拟量信号参与控制对象前馈运算的信号建议通过信号有效位控制平滑时间以弱化对控制对象的影响;
(2)若模拟量合成信号的有效位未送至调阀控制功能块的外部故障位且模拟量合成信号与调阀不在同一AP 时,则当AP 故障时,模拟量数值变为0,闭环回路因失去反馈量而失控。
将合成信号的有效位信号送至调阀控制功能块的外部故障位,即合成信号无效时调阀退出自动。因故障前有效数值可以保持20 s,上述措施可以实现其功能切换。
2.2.3 典型逻辑优化功能例举
2.2.3.1 合成信号JEC00CT904
信号逻辑功能:JEC00CT904 为一回路主管道每个环路热腿的第二大温度信号,参与正常运行仪控系统中一回路平均温度计算。机组正常运行期间,稳压器液位主调节器JEF10DL911 工作在模式3,稳压器液位设定值由一回路冷却剂平均温度确定,即在温度小于280 ℃时液位设定值为5.1 m,在温度大于305 ℃时液位设定值为8.8 m,在280~305 ℃范围内液位设定值为如图4所示。
图4 稳压器液位给定值根据一回路平均温度变化曲线Fig.4 Given value of pressurizer liquid level is based on the average temperature change curve of primary circuit
机组功率运行期间一回路冷却剂平均温度在280~305 ℃的范围内,当JEC00CT904 所在AP606故障时,JEC00CT904XQ01-04 输出为0,调节器JEF10DL911(AP515)中一回路平均温度的热腿温度为0,导致参与稳压器液位给定值计算的一回路冷热腿平均温度大幅下降,稳压器液位给定值将大幅下降,产生阶跃正偏差,从而导致小流量上冲泵上冲流量减少,KBA14 下泄调阀全开,引起一回路液位波动。
整改方案:
将合成信号JEC00CT904 由AP606 移至调节器JEF10DL911 所在的AP515 中,当AP515 故障时输出偏差为0,调节器保持当前状态。
2.2.4 其它主要优化方案
2.2.4.1 JAA10CP912/一回路平均温度JEC00CT911/稳压器窄量程液位JEF10CL913 优化方案
(1)将稳压器窄量程液位JEF10CL913 有效位XQ21引入大流量上充泵出口调节阀KBA20/30AA201,硼控系统下泄管道调节阀KBA16AA201 的外部故障位切除自动模式。
(2)将稳压器窄量程液位JEF10CL913 有效位XQ21 引入JEF10DL911 液位偏差大于0.15 和0.2的限值块,当信号有效性(KG)无效时,限值块输出(Q)和输出取反(QN)都输出为0,限值无效,不会触发逻辑动作。
(3)将稳压器窄量程液位JEF10CL913 有效位引入JEF10DL911 液位偏差值大于0.2 m 的限值块后,小流量上冲泵KBA50EE00 备自投不再起作用,当AP 故障导致稳压器窄量程液位JEF10CL913 输出为零时,KBA51/52/53AP001 备用泵不会再启动,仅会导致一个工作泵加载至满流量,流量偏差只有约0.3 kg/s,相对于稳压器水装量来说影响较小,操纵员有足够的时间干预,因此不需要将稳压器窄量程液位JEF10CL913 有效位引入KBA51、52、53GX001外部故障位切除自动。
2.2.4.2 硼控系统下充流量KBA10CF901/硼控系统上充流量KBA60CF901 整改方案
(1)在硼控系统温度调节器KBA10DT003 的下泄流量KBA10CF901 前馈的微分块之前增加平滑时间切换逻辑。
(2)在硼控系统温度调节器KBA10DT003 的KBA60CF901 硼控系统上充流量稳压器窄量程液位前馈的微分块之前增加平滑时间切换逻辑。
2.2.4.3 蒸汽发生器压力LBA10/20/30/40CP912 整改方案
(1)蒸汽发生器压力LBA10/20/30/40CP912 所在的AP 保持不变,不移AP,取消蒸汽发生器压力LBA10/20/30/40CP912 送蒸汽发生器JEA10/20/30/40AC001 液位修正(包括宽窄量程以及JEA10/20/30/40CL913),其他功能保持不变。
(2)在对应主给水调节阀LAB10/20/30/40AA211所在的AP 中增加一个新的三取二逻辑功能蒸汽发生器压力LBA10/20/30/40CP913,用于蒸汽发生器JEA10/20/30/40AC001 液位修正(包括宽窄量程以及JEA10/20/30/40CL913)。
2.2.4.4 主给水流量LAB10/20/30/40FF911 整改方案
(1)将主给水流量LAB20FF911 移至AP613,主给水流量LAB30FF911 移至AP511,主给水流量LAB40FF911 移至AP511。
(2)主给水流量LAB00FF902 中增加逻辑切换功能,在机组功率运行时,主给水流量LAB10/20/30/40FF901 参与逻辑运算。当主给水流量LAB10/20/30/40FF901 所在AP 故障时,切换到主给水流量LAB10/20/30/40FF911 参与逻辑功能。
此外,除了对上述对两AP 故障逻辑进行筛查和分析,还进行了TXP 系统两IM614 通讯模件故障逻辑优化:为了避免两IM614 模件故障导致整层I/O 模件无法进行信号的采集和发送,对整个TXP系统“二取一或三取二的冗余信号设置在同一层的测点”进行了筛查,共筛选出个信号。大修期间进行了逻辑改造,将这些冗余信号设置在机柜不同层。通过逻辑验证,满足技改要求。
当前控制系统面临的主要问题:逻辑设计不合理、设备老化、备件停产,所以有必要对控制系统进行优化。目前已完成如下优化:①硬件部分:系统服务器硬件优化,由SUN BLADE150 机型升级为SUN enterprise 250 机型,提升了CPU 性能、扩充硬盘容量和处理速度,服务器的稳定性进一步提升;②网络部分:集散控制系统总线系统光纤交换机升级替代,将OSM 交换机升级为SCALANCE 交换机,提升了数据传输速率,加强了总线系统性能;③系统软件和机柜卡件整体优化:集散控制系统整体升级,包括系统软件、机柜内模件、卡件,解决因设备老化、备件停产造成的不稳定因素。
通过对机柜间的通风和温湿度的优化,改善了控制机柜间通风不均和温湿度不平衡问题;通过对机柜增加盖板和滤网,解决了现场粉尘进入机柜模件,造成模件损坏,大大提高了的运行环境,保证系统可靠性的处理工艺参数;通过对仪控逻辑合成信号的优化,使自动控制逻辑布置更加合理,有效地采集现场工艺信号和传送自动控制命令,实现了真正的自动化技术;通过DCS 系统整体优化,降低了设备老化带来的风险和设备停产带来的弊端,提高了整体服务性能,加强了仪控系统的“眼和手的功效”。整体提升仪控系统管理水平,真正实现DCS 系统的功能分散管理集中的特点。
通过对机柜间运行环境优化、机柜内通讯单元升级、仪控逻辑合成信号优化,仪控DCS 系统整体升级,消除了机柜故障带来的停机停堆风险,降低了正常运行仪控系统设备故障的故障后果,保证了机组安全稳定的运行。