吴 江
(陕西清水川能源股份有限公司,陕西 榆林 719400)
一起DCS控制系统“死机”故障的应急处理
吴 江
(陕西清水川能源股份有限公司,陕西 榆林 719400)
介绍了一起DCS控制系统“死机”故障,回顾了故障应急处理过程,指出故障是由服务器B故障引起的,并分析了故障暴露的问题,总结了DCS控制系统的安全防范措施,对提高DCS控制系统的日常维护水平具有一定的促进作用。
DCS控制系统;故障;应急处理;管理制度
某电厂1期工程装机容量为2×300 MW空冷燃煤发电机组,1,2号机组的DCS系统采用北京和利时系统工程有限公司生产的HOLLiAS MACS V5.2.4控制系统,组成单元机组控制网与公用系统控制网。1,2号机组的DCS系统服务器为冗余配置,在正常情况下主服务器A运行,备用服务器B保持数据同步运行;当主服务器A发生故障时,自动切换至备用服务器B。
2015-12-26T17:34,1号机组负荷300.82 MW,汽轮机转速3 002.61 r/min;AGC(自动发电控制系统)未投,AVC(自动电压无功控制系统)投入;磨煤机A,B,C,D,E运行,汽包水位-18.34 mm,汽包压力17.86 MPa,炉主汽压力16.34 MPa,炉主汽温度537.15 ℃,炉膛压力-10.14 Pa,除氧器水位2 270.22 mm;凝汽器水位1 118.16 mm,真空-77.56 kPa;热工自动和保护均正常投入。
17:35,1号机组运行监视人员发现正在满负荷运行的1号机DCS系统所有操作员站“死机”,即所有数据不更新,无法监控和操作参数,立即逐级汇报至值长并联系热工人员处理。值长立即安排运行人员就地对1号机组运行中的重要设备进行监控、待命,并将该故障向有关领导汇报。
17:45,热工人员在工程师站对1号机组DCS系统进行检查,发现1号机组DCS系统状态图显示:1号机DCS服务器A主控(此时服务器A已出现软件故障,数据不能进行更新)、服务器B离线;在电子间对1号机组服务器柜进行检查,发现服务器A在线,服务器B蓝屏,其他交换机等设备工作正常。1号机组工程师站及1台操作员站电脑重启后,该故障依然存在。
检查服务器A的运行软件,发现“New Task Diag”软件数据异常,点击该程序“重置”按钮,重新启动应用程序。17:51,服务器A恢复正常,1号机组DCS系统数据恢复正常,各操作员站及工程师站电脑均恢复正常。服务器B重启失败后,立即打开服务器B机箱对硬件进行检查,发现该服务器机箱内部SCAS卡件上有1个电容爆浆,随即对服务器B清灰检查并更换SCAS卡件。19:17,服务器B重新启动成功并入系统运行。19:20,切换主、备服务器正常,服务器A主控,服务器B备用。1号机组DCS系统恢复正常。
在DCS控制系统发生“死机”后,热工检修人员与公司技术人员沟通后打开1号机组DCS控制系统服务器系统文件,打开DSvr Diagnose记事本,查看服务器A,B切换记录,随即发现2015-12-12T08:07:31时曾发生服务器B故障由主机切为从机,服务器A由从机切为主机。
由于在设备日常巡回检查中未能及时发现服务器B的故障,直接导致2015-12-26T17:35 1号机组DCS控制系统的2台服务器同时故障,造成DCS系统全部操作员站“死机”的故障,严重威胁1号机组的安全运行。
此次DCS控制系统“死机”故障,暴露了该电厂设备管理部门的管理制度落实不到位,仍留有“死角”。设备管理部门对设备巡回检查制度虽有详细要求,且多次提醒、反复强调对重要设备的巡回检查工作,但在执行中的监督考核制度仍存在较大疏漏。此次DCS控制系统“死机”故障充分暴露了热工人员对设备巡回检查存在“走过场”现象,对DCS控制系统的安全隐患及其重要性认识不足,造成完全可以消除的安全隐患长期存在,最终导致1号机组DCS控制系统出现“死机”故障。
(1) 热工专业针对此次DCS控制系统“死机”故障召开了专题分析会,坚持“事故原因没有查清不放过、事故责任人没有受到处理不放过、相关人员没有受到教育不放过、没有制定整改措施不放过”的“四不放过”原则,汲取教训,引以为戒,加强落实设备巡回检查制度,做到每日必检,且检查记录详实可靠,坚决杜绝日常检查“走过场”现象的再次发生。
(2) 热工专业必须清醒认识到DCS控制系统的突发故障或安全隐患将严重威胁机组的安全运行,在日常工作中应认真执行《火力发电厂热工自动化系统检修运行维护规程》以及《防止电力生产重大事故的二十五项重点要求》,完善DCS与DEH系统故障应急处置预案,提高突发故障的应急处理能力,确保机组的安全稳定运行。
(3) 举一反三,设备管理部门应对全厂DCS控制系统及其他重要设备进行全面、细致的隐患排查治理工作,发现问题及时处理;对暂时不能消除的设备隐患应进行汇报,并制定操作性强的临时防范措施。要强化过程管理与监督,彻底消除安全隐患,并做好风险评估工作。
(4) 该电厂DCS控制系统运行时间长达8年,服役时间较长,应尽早制定技术升级方案,对DCS服务器或对DCS系统进行升级,以确保DCS控制系统更加安全可靠。
电厂DCS控制系统虽然具有很高的可靠性,但若故障发生时未及时处理,将会导致严重后果,致使整个DCS控制系统崩溃,造成机组停运或设备损坏事故。为避免类似故障的发生,DCS用户应加强对DCS控制系统管理与维护人员的培训,减少人为因素对DCS控制系统的影响,提高系统的安全性和可靠性。DCS厂家应定期跟踪回访用户,深入了解DCS产品在实际应用中出现的问题,从硬件和软件等方面不断加以完善和改进。
通过这起DCS控制系统“死机”故障的应急处理,电厂再次认识此类故障的严重性和危害性,对电厂DCS控制系统的日常生产维护具有一定的借鉴意义。
1 中国电力企业联合会.DL/T 74—2015火电厂热工自动化系统检修运行护规程[S].北京:中国电力出版社,2016.
2 国家电网公司.防止电力生产重大事故的二十五项重点要求[M].北京:中国电力出版社,2013.
3 孙秋生.一起控制系统故障造成跳闸事故的分析[J].电力安全技术,2012,14(11):32-34.
4 董 飞,艾则提.热控仪表及DCS系统遭受雷击的分析与防范[J].电力安全技术,2011,13(1):62-64.
2016-09-11。
吴 江(1971-),男,助理工程师,主要从事火力发电厂热工设备维护、检修、安装和调试等工作,email:372163057@ qq.com。