阚俊超
(大唐华东电力试验研究院,合肥 230031)
随着DCS控制系统在大型发电机组的广泛应用,其可靠性对机组安全、稳定、经济运行和电网稳定的影响逐渐增大,因此DCS系统的冗余功能显得尤为重要,控制器、系统电源、I/O模件电源、通讯网络等均应采用完全独立的冗余配置,在发生设备故障时,应具备无扰切换功能。从通讯故障导致机组非停的案例入手,对DCS典型通讯故障问题进行原因分析,总结故障处理的经验教训,并制定相应的预防措施,旨在提高DCS控制系统的安全可靠性。同时各发电企业应在设计、生产准备、基建、出厂验收和调试等阶段,按照相关规程规范对DCS通讯功能进行全面检查及性能调试,使各项指标满足规程要求。确保发电机组不因DCS通讯问题造成非停损失甚至失控[1]。
1.1.1 事件经过
某1 000 MW超超临界机组运行期间,负荷940 MW,机组处于CCS方式,AGC投入、RB功能投入。给水系统A、B汽泵运行,A汽泵转速4 645 r/min,B汽泵转速4 650 r/min。17∶31∶59,A汽泵3个转速反馈信号突然出现同步上升至5 323 r/min且无法调节,与当前转速指令4 860 r/min偏差超限,A汽泵自动控制功能退出,A汽泵MEH保持遥控及操作员自动状态。在MEH调节器作用下,为降低A汽泵转速,A汽泵低调门持续关闭,转速信号无明显变化,而给水流量呈下降趋势,故此时A汽泵转速信号应为虚假指示。给水流量下降后,虽然给水主控指令及B汽泵指令在PID作用下快速上升,但仍无法维持锅炉给水流量。17∶33∶06,给水流量降至2 215 t/h,与设定值(2 554 t/h)偏差超限,给水主控及CCS方式随即切除,由运行人员手动控制机组运行。
CCS方式切除后,A汽泵转速信号出现反复波动,波动幅度达±700 r/min,给水流量发生快速变化,此时垂直水冷壁出口混合集箱温度呈上升趋势。17∶34∶48,A汽泵转速信号突降至3 710 r/min,与设定值偏差超限,触发MEH“转速故障”信号,A汽泵跳闸。由于CCS、给水主控均已切除,机组RB功能未触发。此时运行人员手动控制机组运行,由于参数波动剧烈,17∶41∶20,锅炉垂直水冷壁混合集箱温度超过锅炉MFT动作值,1号机组跳闸。跳闸曲线如图1所示。
图1 非停前后给水系统主要参数趋势
1.1.2 原因分析
A汽泵转速信号突升至5 323 r/min,与转速指令(4 860 r/min)偏差的绝对值超过300 r/min,A汽泵自动控制功能退出,但A汽泵MEH仍保持遥控及操作员自动状态,MEH依据虚假的转速信号持续调节。因此A汽泵在转速信号异常后,转速指令与实际转速偏差绝对值超限,造成A汽泵自动切除但未切除MEH操作员自动,是本次非停的直接原因。MEH操作员自动未能及时切除,转速指令与反馈偏差大于1 000 r/min后,A汽泵联锁跳闸。
该电厂1号机组给水泵的转速信号传输回路为:3个DP820转速卡将转速信号传送至一对冗余配置的CI840通讯卡,再经过一对冗余配置的PDP800通讯卡与ABB总线控制器相连。非停后,现场检查转速信号传输回路,发现CI840通讯卡中的主卡报故障信号,通信传输由副卡接管。而此时回传的转速信号均为异常状态,无法更新。手动复位通讯卡后,转速信号恢复正常。
停机后开展试验,利用信号发生器模拟转速脉冲信号发至CI840通讯卡,并手动进行“主→备”通讯卡切换,发现此时控制器接收的转速信号再次出现示值异常的现象。经进一步检查发现,通讯卡CI840的参数配置不当,导致主卡故障后无法实现无扰切换,是本次非停的根本原因,切换过程中通讯信号异常,引发后续保护动作、参数失稳。
1.2.1 事件经过
某600 MW超超临界机组运行期间,CCS方式运行,机组负荷576 MW,凝汽器A真空为90.7 kPa,凝汽器B真空为92.2 kPa。1A、1B循环水泵运行。09∶05∶53,1号机组DCS循环水远程站画面所有模拟量信号显示异常,调阅历史记录检查发现远程站AI信号变成坏点:部分DI信号出现翻转,原有的“0”信号均翻转为“1”,而原有的“1”信号保持不变;RTD信号未报“坏质量”但数值错误。此时1A、1B循环水出口蝶阀全关信号误发,09∶06∶08,1A、1B循环水泵停运。凝汽器A、B真空开始快速下降,1号机组凝汽器A真空压力开关63-1/LV1-1、63-4/LV1-1动作,满足真空低保护条件,触发凝汽器真空低主保护动作,汽机ETS动作,锅炉MFT、发电机出口开关联跳。跳闸曲线如图2所示。
图2 机组真空低停机曲线
1号机组循泵出口蝶阀状态、指令以及循泵温度等信号均由就地远程站通过远程节点卡,经光纤与1号机组电子间的CTRL16控制器进行数据通讯。异常工况发生时,负责与CTRL16控制器通讯的循泵系统远程节点卡故障,循环水泵出口蝶阀关反馈信号(DI)翻转,开关量点由“0”变“1”,信号误发,而1A、1B循环水泵跳闸指令是由汽机电子间CTRL16/66控制器通过硬接线直接送至电气回路进行控制,误跳1A、1B循环水泵。
1.2.2 原因分析
1号机组2台循泵出口蝶阀全关信号误发造成循环水泵停运,出口蝶阀因通讯中断无法及时关闭,导致1号机组循环水流量和母管压力快速下降引发机组凝汽器真空低保护动作,是此次非停的直接原因。
该机组16 号控制器配置有一套远程控制站,由16号控制器下MAU A 卡通过光纤连接至远程站的REMOTE NODE 卡做为远程站与16号控制器的通讯连接;66号控制器下MAU B 卡通过光纤连接至远程站的REMOTE NODE 卡做为远程站与66号控制器的通讯连接,如图3所示。16号和66号控制器为冗余的一对控制器。MAU A 卡与B 卡之间无直接物理连接,两者之间的切换通过控制器切换实现。该远程站主要控制1A、1B 循环水泵出口蝶阀指令及状态反馈。1A、1B 循环水泵启停指令及反馈在汽机电子间通过CTRL16/66控制器使用硬接线直接送至电气回路进行控制。
图3 远程NODE卡与MAU卡连接示意图
由于远程站通讯中断,导致CTRL16/66控制器至远程站指令输出通道阻断,运行发出1A、1B循环水泵出口蝶阀关指令(D0),就地液压机构未动作,母管循环水通过1号机组出口蝶阀倒流,未能进入凝汽器,进而造成1号机组循环水流量和母管压力快速下降,循环水流量不足以维持机组真空,最终导致1号机组凝汽器真空低保护动作。
DCS系统CTRL16/66控制器为主辅冗余配置,循环水系统远程站的远程节点卡(包括电源、光纤等通讯回路)也是对应的冗余配置。该控制器组态设置时将“Disable Controller Failover on Node Failure”功能开启,即当远程节点卡故障时不触发控制器切换,因此负责与CTRL16控制器通讯的循泵系统远程节点卡故障后,CTRL66控制器未能及时接管是本次非停的根本原因。
1.3.1 事件经过
某200 MW燃-汽轮机再热循环机组运行期间,AGC投入,其中3号燃机负荷100 MW,排气温度550 ℃,4号汽机负荷42 MW,抽汽供热流量69 t/h。12∶24∶31,3号燃机报警界面发出L30COMM_IOIO PACK COMMUNICATIONS FAULT(卡件通讯故障)、L27DZ_ALM(直流电压低)、L94BLN_ALM(直流电压低触发自动停机)等报警,此时3号燃机自动停机程序异常触发,3号燃机开始降负荷,12∶25∶25,3号燃机发变组负荷降到0 MW,3号燃机发变组解列。
1.3.2 原因分析
经检查报警列表信息和相关控制逻辑发现:触发3号燃机自动停机程序的直接原因是报警信号L94BLN_ALM的触发,即MarkVIe控制盘125 V电压低于90 V时,延时3 s触发L94BLN_ALM信号报警,触发自动停机程序。经查阅历史曲线,如图4所示,发现燃机MarkVIe控制盘电压在12∶24∶31开始下降,到 12∶24∶37恢复正常,持续时间6 s,期间电压值最低下降至0 V。
图4 直流电压降低导致机组停机曲线
经过对MarkVIe控制盘报警信息、PPDA电源卡报警日志、现场控制设备检查及停机后相关验证性试验得知,导致此次3号燃机自动停机的根本原因是3号燃机的PPDA电源卡电源监测与MarkVIe控制盘之间发生通讯故障。
在机组停机后,对3号燃机PPDA电源卡件进行网线热插拔试验,模拟PPDA电源卡通讯故障状态,发现MarkVIe控制盘直流电压直接变为0 V,并显示电压坏质量,检查MarkVIe控制盘报警信息、电源卡件报警日志信息与自动停机前触发的报警完全一致。
控制盘内网络交换机发生软故障导致发生卡件通讯故障(L30COMM_IO),导致3号燃机的PPDA电源卡电源监测与MarkVIe控制盘之间发生通讯故障,控制器内接收到的直流电压信号变为0 V,且时间超过3 s,触发L94BLN_ALM报警,执行3号燃机自动停机程序。
通过上述案例的分析,机组因通讯问题导致的机组非停原因主要集中在以下几方面:通讯卡件切换失败,通讯功能未完善以及机组未配置网络通讯冗余,也存在诸如电子元器件损坏、网络堵塞等原因。
在1.1案例中,该厂所配的CI840通讯卡参数配置不当,主卡故障后无法实现主副卡无扰切换,切换过程中通讯信号异常,进而造成后续保护动作、参数失稳。由于MEH功能设置不完善,导致转速异常时MEH仍然依据异常的转速信号持续调节。此外,在RB逻辑设计方面不全面,忽视了未投入协调控制状态下单侧辅机跳闸时,RB联锁跳磨和投入等离子点火装置等运行方式对于运行人员的重要帮助作用。
在1.2案例中,DCS故障报警功能不完善,出现远程节点卡故障等现象时,缺少监视和报警方式。在通讯功能设置方面,远程节点卡故障不触发控制器切换设置不当(即开启“Disable Controller Failover on Node Failure”功能)。该机组DCS系统卡件已连续运行8 年之久,即将到达DCS设备的劣化周期,维护人员对DCS系统卡件劣化程度掌握不深入,风险预控不到位。在机组运行方面,对循环水远程站通讯异常中断的风险认识不足,未考虑到通讯中断可能造成的开关量点状态翻转这种极端情况。
在1.3案例中,PPDA电源卡为单网运行,不能实现双重冗余功能。在机组停备时,对PPDA电源卡进行验证性试验,发现拔出其中一根送至R-SW2的网线时,电压信号立即丢失;恢复后,拔出另一根送至S-SW2的网线时,PPDA卡件及MarkVIe盘没有任何报警,即该机组未设置通讯冗余功能。在试验过程中,发现缺少关于MarkVIe的完整的网络拓扑图,每块卡件送至交换机的走向不明确。维护人员对MarkVIe控制盘内交换机的设备性能劣化情况和潜在缺陷了解不充分,对可能出现的异常状况处理手段不足。
在国内其他因DCS通讯问题导致的非停案例中,也存在部分老旧机组通讯卡件局部电路板腐蚀的情况。如大多数沿海地区机组,循环水泵往往在就地设置了远程IO站,通过通讯方式与主机DCS连接。沿海地区空气湿度大、盐分含量高,对电子元器件的损害严重,导致与本地控制器通讯异常,甚至导致部分DO指令误发现象[2]。
还有一些机组出现了因通讯网络风暴造成机组异常运行的情况。某机组正常运行,各运行参数正常。突然所有电脑显示故障,CRT画面无数据显示,运行人员无法监视调整。经查发现机组DCS系统通讯瘫痪,人机界面完全失控。将A网彻底隔离,只留B网工作,然后重新启动操作员站,逐个控制器恢复通讯,DCS系统监控功能基本恢复正常。检查为DCS系统通讯主干网络A、B 网发生通讯网络风暴,在DCS系统通讯主干网络A、B 网有大量垃圾数据包存在,存在一定风险,将DCS系统通讯主干网络A、B 网及下属所有站点(包括DPU)同时断电重启,重新检查、清空下装控制组态,彻底清除网络上的信息。
机组的安全稳定运行,除了与通讯冗余功能是否成熟可靠有关外,还与通信网络畅通情况相关。随着智慧电厂的逐步推进,越来越多的数据将会与MIS、SIS等系统进行通讯连接,读取生产实时数据,在网络中接进动态数据服务器,网络堵塞现象就变得十分频繁,使得各种人机界面的节点出现死机现象。此外,软硬件的更新不同步也会造成程序与功能不匹配,在控制器切换时,因个别点的扰动造成控制器的网络驱动和网络任务启动失败,造成控制器的故障离线。
机组从基建到正常生产运行期间,由于专业人员的不断更替,各控制器的组态也随之变化,但随着时间的推移,控制器只会增加逻辑,没有删除原有的无用的逻辑组态,DPU读取数据时仍会读取原有数据点,也会造成DPU的负荷率过高,甚至造成网络堵塞,进而导致机组DCS出现异常现象[3]。
由于现场的工作环境较差,通讯链路受到各种负面因素的干扰较大,例如机械碰撞、电磁场干扰、人为检修等等,故障率较高。通讯同轴电缆任何一处节点中断,所有设备的通信全部断开,数据丢失,甚至造成更大的经济损失[4]。
针对DCS发生通讯故障的原因,通常可以对整个通讯回路的接线进行检查及紧固、通过与其他通讯卡件类比进行故障排查、通过短接方式测量同轴通讯电缆的电阻确认电缆正常、通过检查网络交换机等方式进行通讯链路的全过程排查。
在日常机组运行及检修维护过程中,可从以下几方面加强日常DCS的维护工作,确保DCS网络的稳定运行:
1)加强巡检周期制度的落实。机组正常运行时,加强对DCS光字牌中控制器的报警、负荷率及存储容量等关键信息的监视。定期对电子间,特别是所处环境恶劣的远程IO站进行系统维护,检查控制机柜散热风扇是否运转正常、环境温湿度、机柜滤网及通风口是否清洁通风无阻;运行期间,不宜在控制机柜3 m以内的范围内使用对讲机;对引入干扰的现场设备,除检查回路接线应完好外,还应对该设备加装屏蔽罩。
2)在机组检修期间,严格按照规范要求开展控制器及网络冗余功能、接地电阻、抗射频干扰、模件信号处理精度、网络负荷率以及网络风暴等定期测试工作。在开展通信冗余试验时,投切通信网络上任意节点的设备,应自动无扰动切换至冗余总线进行;检查系统数据应无丢失、设备故障报警正确、诊断画面显示应与试验实际相符。远程IO站通讯卡件应设置主备,信号通过通信方式分别传输至DCS主备控制器,当任一远程IO站通讯卡件故障时,数据传输功能应立即切换至备用卡件,此时对应的DCS控制器应立即切换。根据测试结果制定备品备件计划、系统维护计划及相关应急预案。
3)对于通讯信号采用光纤传输的,应严格按照规范要求对光纤的反射率及衰减率进行测试。在机组检修期间应对光纤进行端面洁净度测试并清洗。为了保证通讯质量,光纤电缆应尽可能远离动力电缆,特别要远离变频设备的动力电缆。检修维护过程中做好防护措施,应避免人员触电及误操作、卡件损坏、光纤接头污染及尾纤受潮、光纤插拔更换过程中可能造成的灰尘掉落、手指触碰、插拔损耗等。
4)随着机组运行时间的推移,应做好DCS设备的劣化分析和设备的及时改造工作,确保控制系统内任一组件发生故障,均不应影响整个系统的工作。系统的参数、报警和自诊断功能应高度集中在LCD上显示和控制,控制系统需在功能上和物理上分散配置[5]。
5)DCS系统网络与其他如MIS、SIS等系统连接,应在DCS内设置符合电力系统二次防护要求的防火墙,对DCS网络与所有外部系统之间的通讯。接口(网关、端口)进行实时在线监视,有效杜绝病毒的运行和传播,有效防范外部系统的非法入侵和信息窃取。保证系统的安全性、可靠性,外部计算机系统设备或外部网络通讯方面的故障,不影响整个DCS系统的正常运行。
通过对几起非停案例的分析,对DCS通讯故障的原因进行了解析,有些问题已经严重影响了机组的安全稳定运行。因此在日常生产及维护过程中,应注意搜集各类DCS通讯故障问题,并进行分析总结,做到举一反三。同时,加强日常技术监督工作的深度和力度,坚决贯彻执行各项规程及标准的相关要求,并制定出有效的安全措施。针对DCS网络系统的全过程链路,注意日常维护过程中的问题防范,加强性能测试过程中的问题模拟,发现和解决设备及系统隐患。通过日常工作的做优做细,以及设备技术改造,努力减少DCS的不安全因素,可以提高DCS通讯网络的可靠性。