徐文辉,林 勇
(浙能温州发电有限公司,浙江 温州 325602)
温州发电厂建于1989年,现有4台300 MW机组在运行中,其分散控制系统(DCS)都采用了ABB SYMPHONY控制系统,该系统由过程控制单元、人系统接口单元、系统组态维护工具、计算机接入网络的接口、过程管理数据传递的网络等部分组成。控制系统通信网络为环网结构,采用存储转发式通信方式。控制单元根据其功能特点分为控制模拟调节(MCS)、顺序控制(SCS)、炉膛安全监控(FSSS)和数据采集(DAS)四部分,通过逻辑组态实现对汽机、锅炉设备和部分电气设备的集中控制和监测。
SYMPHONY控制系统在温州发电厂投用以来,曾发生通信异常、设备硬件故障、参数设置不合理等故障,对机组的安全运行造成了不同程度的影响,此时快速、准确地判断及排除故障就显得尤为重要。为此将故障分析处理过程中的一些经验与教训进行总结,以提高控制系统故障的分析处理能力。
某日,3号机组操作员站通信异常,经过分析后,确定为环路通信板故障,更换通信板后,在操作过程中误将“Loop2 Out”端口作为“Loop1 Out”端口拆除,导致整个控制网络Loop1和Loop2通信同时中断,好在当时机组正在停机检修中,未对系统造成实质性的影响。
SYMPHONY控制系统通信网络采用双网环形结构实现其网络通信的冗余功能,正常情况下单路网络故障不影响系统的正常运行,即使该节点的通信卡件电源中断,也能通过硬回路自动旁路该节点,从而保证整个网络的正常运行。因此在机组运行中处理通信故障问题时,要保证其中一个环网正常运行的前提下,才能对另一个环网进行检查和处理。
4号机组循环水系统运行中经常短时间“离线”后又自动恢复正常,而3号机组的循环水系统监控画面却未出现异常。3,4号机组循环水系统采用公用配置方式,其过程控制单元配置在公共环路中。
从故障现象分析可排除控制单元部分故障的可能,问题基本确定在4号机组控制环与循环水系统公共环路间的通信部分。对该通信节点检查发现,该节点通信采用INICT冗余配置(冷备方式), 其中“INIIT03”卡件的硬件参数“SW2”中“Failover to secondary module on power system status alarm”选项设置为使能方式,而该控制机柜内的电源系统中有1块IPSYS01卡件存在潮流控制器(PFC)故障,阶段性触发电源异常信号,导致该通信节点主从模件自动切换。在主从通信模件的切换过程中,其通信数据存在短时的中断现象,从而出现监控画面“短时离线”的情况。更换故障电源卡件并将“INIIT03”卡件“SW2”中的上述选项设置为禁止方式后,故障现象消除。
该故障提醒热工人员应非常清楚SYMPHONY系统的冗余存在2种情况,即热备状态和冷备状态:在冷备时,备用设备处在“就绪等待”状态,未实时同步过程数据,其主从切换过程无法实现无扰;而在热备状态时,备用设备中的所有过程数据都与运行设备同步,因此在主从设备切换中能够实现无扰。这种现象不仅存在于通信模件中,也存在于多功能处理器中。在组态设置中要对2种冗余情况合理设置,以确保系统冗余切换的可靠性。
多功能处理器作为控制系统的大脑部件,常见的故障(如内部错误等)都能够通过复位处理器或初始化操作(“1/7,1/6”操作)来解决,而一些严重故障则需要更换设备;由于基本都采用冗余配置,故障一般不会对机组运行造成直接影响。不过一些跳线的错误设置会导致一些特殊的故障发生,从而影响其正常工作。
某台机组定修后,运行中发现某DAS系统处理器(IMMFP12)中的所有信号经常丢失几分钟,并又自动恢复正常。通过工程师站组态软件监视检查却未见异常;该处理器所处机柜内的其他处理器信号无异常。经分析初步判断为该处理器通信故障所引起,在对处理器更换过程中发现其通信模式的设置有误:设置处理器与I/O卡件间的通信方式跳线丢失(跳线J5上用于设置通道模式的短接片缺失)。重新对该通信方式进行设置,将跳线J5的2-3短接,即选择为“CONTROLWAY”模式,系统恢复正常。
处理器J5中的跳线设置“-30VDC SYSTEM”是针对早期的N90系统设计,INFI90及以后的系统都采用控制总线的通信方式,节点通信卡件(INNPM)也存在此类设置。值得注意的是,厂家出厂的默认设置都选择在“-30VDC SYSTEM”,因此在更换卡件及卡件清灰等工作中要注意对其设置进行检查确认。
在某台机组脱硫系统增压风机变频改造项目调试过程中发现:增压风机变频器DCS无法实现启停操作。对变频器控制逻辑检查未见异常,但对应的IMDSO14卡件状态指示异常(卡件状态灯不亮),更换卡件后状态依旧。对柜内各通信电缆检查发现其相邻层模件安装单元(MMU)间的I/O扩展总线通信线有松动现象,重新插紧后故障消失。
SYMPHONY控制系统中处理器与I/O卡件间采用主、从通信方式,通过8位并行总线(I/O扩展总线X.B)实现连接。该总线上处理器是主模件,通道模件是子模件(MFP)。子模件通过总线得到主模件的请求后,将与主模件通信,为主模件提供I/O通道,上传或下传数据及接收主模件的诊断,如图1所示。
图1 I/O扩展总线
MMU间的I/O扩展总线通过通信线进行连接,连接的可靠性将直接影响数据通信的正常进行,而部分通信线的接插件容易出现接触不良等问题,因此需定期进行相关的检查和紧固工作,保证通信线路的正常运行。
二期机组投产运行不久,分组控制单元(PCU)机柜内电源开关多次发生绝缘下降导致跳闸故障,且多发生在高温季节。原因主要有两方面:一是空调的出风口设计不合理(在机柜顶部),冷风正对机柜吹,导致机柜外壳温度过低,容易结露;二是机柜顶部的吊装孔未封堵,导致出风口部分冷凝水从该吊装孔流入机柜内。
虽然电子硬件产品各项性能指标都有了大幅度的提升,在较为恶劣的环境下短期也能够正常运行,但是长期在超标的环境下工作必然会引起部件性能指标下降,导致设备使用年限缩短、故障频发,而且此类问题隐蔽性极强,不易直观发现,难以采取预防措施。应在基建设计初期就加以关注,并在日常工作中严格监控各项环境指标。
SYMPHONY控制系统中设计了电源故障中断(PFI)保护回路。当电源系统发生故障影响控制器或I/O卡件正常工作时,及时停止控制器等主模件的工作,切断和子模件之间的通信,保证子模件不会接收到错误的输出指令以保证现场设备的安全。但在实际运行中,由于电源监视模块采用单路监测,设备的可靠性直接影响到控制系统的正常运行。
如某日1号机组负荷82.9 MW。00:06发现操作站画面参数异常,炉侧大量数据出现坏值,炉侧设备无法操作,火检监视看不到火焰,给粉机均跳闸,CCS自动退出,机组负荷、汽温和压力持续下降;但主燃料跳闸(MFT)未报警,制粉系统未跳闸,机组采取快速减负荷措施。00:17:16,机组负荷14.5 MW,机侧主汽温度下降至450℃,炉侧主控屏温度显示为385℃,低温保护未动作(后查原因为MFT信号未发出),手动停机。事故原因经查是FSSS系统机柜中一块冗余电源模件故障,电源下降引起PFI保护动作,由于给粉机停指令采用的是常闭触点,正常运行中的给粉机停指令继电器处于得电状态,当卡件停止工作后导致给粉机停指令继电器处于失电状态,所有给粉机都跳闸,包括CCS在内的锅炉自动退出运行,全炉膛熄火。由于未设计失电MFT触发功能,导致MFT未动作,进而低温保护拒动。建议采取以下措施:
(1)对冗余电源的工作电流进行监视,工作电流变化时,意味着系统或自身情况发生变化,要及时报警,提醒热工人员及时处理,以避免故障发生或降低危害程度。
(2)环境温度对电子元器件的工作特性有较大影响,因此要确保控制室、电子室的环境温度符合要求。
(3)针对本次FSSS系统失电未触发MFT动作的问题,建议增加MFT扩展继电器板,通过硬逻辑实现失电MFT功能;将MFT信号和低温信号引入数字电液控制系统(DEH)控制器,在DEH里实现低温保护;增加MFT关减温水阀逻辑。
时钟作为一个重要的系统参数与控制系统许多功能相关,包括事件顺序记录系统(SOE)、历史趋势、事件报警等,当系统时钟失真时,必将影响这些功能的正常工作。系统中所有节点都与时钟同步,不同类型节点其时间精度等级不同。
环路中最高级别的节点为时间主站,按照一定的时间间隔以广播的方式向各节点发送时间同步信息,其他较低级别的节点接收该时间同步信息并进行时钟调整。
运行中发现5号机组DCS操作员站时钟明显不准(滞后20 min),并且偏差日益扩大。检查DCS时钟系统发现:环路时钟精度级别显示为13级,GPS同步时钟装置面板时间指示正确,但是实际环路时钟日期显示异常,导致操作员站不断地调整其时间去同步错误的环路时钟。通过对SEM/TKM时钟模件进行冷启动、重新配置操作员站时钟同步等级等操作后,环路及操作员站时钟恢复正常。
经分析讨论,发现该问题的起因是维修人员对GPS同步时钟装置停电进行清灰,在工作结束恢复上电过程中,由于装置内部备用电池失效,上电过程中装置随机获得了一个失真的时间,引起DCS系统时钟出错引起。
随着控制系统运行时间的延伸,影响系统可靠性的因素会时有发生,需要热工人员做好系统设备和检修运行维护全过程管理,为确保控制系统在各种故障下的处理措施具体且切实可行,提出以下建议:
(1)为减小机组运行中控制系统设备故障处理时的风险,确保机组在运行过程中发生控制系统故障时,能够迅速、准确地处理故障,最大限度地降低故障造成的影响。应通过深入专题研究,编制合适的DCS故障应急处理预案,通过完善故障时应急处理方法和定期反事故学习,提高运行维护人员在控制系统故障时的应急处理能力,消除DCS故障时因人员操作处理不当而导致的故障范围扩大的隐患。
(2)在处理通信故障问题时(特别是机组运行中),要确保其中一个环网正常运行的前提下,才能对其另一个环网进行检查和处理。
(3)热工人员应非常清楚SYMPHONY系统的冗余热备状态和冷备状态的区别,在组态设置中对2种冗余情况合理设置,并定时进行冗余切换试验,以确保系统冗余切换的可靠性。
(4)更换卡件及卡件清灰等工作中要注意对跨接片设置进行检查确认,机组检修中对通信连接插件要进行相关的检查和紧固工作,保证通信线路的正常运行。
(5)防止PFI保护发生误动作导致控制系统运行异常事件发生,取消原PFI保护回路,将机柜直流母线上的+5 V DC引入到PFI信号端子上,保证卡件的正常运行;同时增加对机柜环境的监测。利用控制系统提供的环境状态监测功能,对机柜内的电源运行情况、机柜温度、风扇运行情况等进行实时监测,出现问题及时处理。
(6)GPS同步时钟装置进行维护前,要先将送至DCS系统的同步时钟信号线拆除,在GPS同步时钟装置运行正常(面板时间指示正确)后才允许将同步时钟信号接入DCS系统中。
一套控制系统运行情况的好坏,一方面由该系统产品本身的性能及质量水平决定,另一方面则由日常运行维护工作质量决定。深入掌握控制系统各项工作机理,充分发挥其功能,能够很大程度上帮助解决日常工作中遇到的一些问题。当然也没有一款设备是完美的,肯定存在着或多或少的缺陷,需要在工作中不断排查、分析和处理。制定相应的预控措施重在到位、贵在坚持,只有坚持不懈的努力,保证控制系统良好的工作环境,才能保证机组的安全经济运行。
[1]孙长生,朱北恒.提高热工自动化系统可靠性的技术研究[J].中国电力,2009,42(10):56-59.
[2]DL/T 774-2004火力发电厂热工自动化系统检修运行维护规程[S].北京:中国电力出版社,2004
[3]孙长生.火电厂热控系统可靠性配置与事故预控[M].北京:中国电力出版社,2010.