高龙刚,陈红征,李诚香
(山东莱城发电厂,山东 莱芜 271113)
DCS系统已经在火力发电厂得到广泛应用,但无论哪种DCS系统,网络通讯故障都是影响机组安全稳定运行的重要原因。由原国家电力公司发布的 《防止电力生产重大事故的二十五项重点要求》[1]对DCS系统的配置和紧急处理措施作了详细的要求,各家电厂也根据自己的系统实际制定了专门的防止DCS系统失灵措施,这些都为DCS系统的安全可靠运行奠定了基础。
TELEPERM_XP系统由德国西门子公司制造,该系统主要包括自动过程控制系统(AS620)、过程处理及监视系统(OM650)、工程组态及调试系统(ES680)和SINEC总线系统。SINEC总线系统采用了以厂网和终端网为主体的双环网结构,采用CSMA/CD,TCP/IP通讯协议,其网络结构如图1所示,其核心部件是星形耦合器[2]。
OM650系统主要由过程处理单元(PU)、历史服务单元(SU)、操作员站(OT)、外部网络连接单元(XU)组成。PU配双网卡,一端联接厂网,一端联接终端网,完成数据的传送、处理、短期归档及报警功能;SU挂在终端网上,完成数据的长期归档及描述功能;OT挂在终端网上,完成画面监视及操作功能;XU配双网卡,一端联终端网,一端联SIS网络,完成DCS数据向SIS的传输。机组的OM650系统均配置 6台 OT、4台 PU、2台 SU、1台XU。机组的AS620系统配置8个AP柜及一个APF柜。
图1 TELEPERM_XP系统网络结构图
机组负荷288 MW,制粉系统A、B磨全磨运行,C磨C1层喷燃器运行,煤量161 t/h,炉膛负压-71Pa,机组在手动方式下稳定运行。17:11:19,BTG 盘“RB”报警发出,DCS上“RB 跳 B 磨”、“RB跳C磨”信号发出,B、C磨同时跳闸。机组MFT,首出原因“炉膛压力低低”。风机RB、一次风机RB同时发出。
机组负荷296 MW,制粉系统A、B磨全磨运行,煤量152 t/h,运行人员发现 2台 OT(OT1、OT2)死机。然后其他OT相继死机,所有运行参数均无法监视,热控人员检查厂网及所属AP均运行正常。
以上两次均为TXP系统典型故障,一个是底层通讯一个是上层通讯,而且此类故障在同型号DCS上或多或少均有出现。
TXP中的工业以太网(Ethernet)使用CSMA/CD访问机制 (带冲突检测的载波侦听多路存取)。在CSMA/CD总线上,所有站都与总线检查或侦听相连,侦听在总线上的发送。每个站在任何时候都有权在其它站不使用总线的情况下访问传输介质 (边对话边侦听)。如果其它站在传输数据时,一个站想发送数据,则该站只好等待,等到正在发送的数据包被接收后,再经过一个时间间隔,此站才能开始发送数据。如果传输站检测到冲突,该站会停止发送数据,冲突后丢失的数据包重新发送。
过程图象传递。AP<>AP及AP<>FUM卡件通讯通过传递过程图像来完成,AP系统软件从附属层获取过程数据,并将其贮存在输入的过程图象(PAE)中。反过来,AP系统软件将由用户程序已经产生的数据和贮存在输出的过程图象(PAA)中的数据传送到附属层。过程图象传递能使用户程序在两个AP中通过SINEC H1 FO来交换数据。数据交换是通过AP<>AP链进行的。链的数目(多达32个)可以被组态,每个链允许最长256个字节的一个数据块被接收或循环地传递。如果一个信息帧在一有关链的时间内通过一个完整的链而没有收到,则一个信息(DMZ)就产生了。如果一个AP<>AP链完全故障,则也发布一个信息。
图2 AP处理器与FUM卡件过程图像传递
图3 AP处理器与上位系统过程图像传递
TXP系统硬件连接如图4所示,根据硬件接线及过程图像通讯原理、AP源文件组态,可以得出AP的通讯链路是左侧AP与其他左侧AP通讯,右侧AP与其他右侧AP通讯,该通讯通过网卡CP1430实现,通讯时左右AP通过IM324R和IM304卡来保证两侧AP过程图像一致,当AP、CP1430故障导致其固有通讯中断,则通过CP1430<>AP<>IM324<>IM304<>AP<>CP1430环形通讯链通讯,这时候如有硬件或软件故障,则通讯中断。
图4 TXP系统硬件连接图
本次底层故障前AP9右侧AP故障,退出运行,使右侧AP通讯中断,AP9与AP4通讯仅靠左侧通讯,此时AP4左侧AP故障重新启动,造成左侧通讯链路也中断,此时两AP自身及AP与上位系统通讯虽然正常,但两AP之间数据中断,送、引风机、一次风机运行信号消失,导致AP9内RB逻辑误判断发出跳磨煤机信号,炉膛负压瞬间下降机组MFT。
上层处理器 OT、PU、SU功能分布如表1所示,分别为人机接口(MMI)、AS 通讯(ASR)、短期归档(ARC)、处理功能(MAC)、描述数据管理程序(BDM)、长期归档(LTA)、运行记录/打印(PRT)、笔记本(NTB)功能,同时SU由于长期归档,每一个服务器单元通常配备磁光盘的内部MOD驱动器。
表1 上层处理器OT、PU、SU功能分布
目前该机型配置为CPU为奔腾II系列,主频166 MHz,内存64 MB;显卡采用加拿大MATRON公司的彩显,显存8 MB,硬盘采用西捷公司的1.9G SCSI硬盘,SCSI卡为 ULTRA2-LVD/SE,版本2.0,网卡型号为3COM EtherLink III,ESIA接口,最大传输速率10 Mbps。SU配置有明显的弱点:硬盘容量较小,仅为1.9 G。传输速率较低,还配有MOD光驱。现在运行人员在操作及问题分析时经常长期调用历史曲线,历史曲线调用时耗费大量的资源,特别是周期较长曲线,有时还会读取MOD,若此时通讯发生冲突或硬盘、MOD偶发小故障,导致历史曲线较长时间调不出来,通常会在其他OT上调用,导致数据传输量加大,通讯冲突加剧,系统会发送大量的故障信息,由于硬盘容量较小,信息积累到一定程度会导致SU、PU、OT死机,整个上位系统瘫痪,而SU硬盘容量较大机组则不容易发生此类问题。
加强电子间环境、温湿度检查,特别做好灰尘、湿度控制,防止因为灰尘积累在空气湿度大情况下造成卡件故障。
加强设备巡回检查,每天两次对AP、卡笼通讯模块状态记录,报警信息检查记录,出现问题及时分析并采取相应措施。
对AP柜间通讯点进行全面排查,对于重要的联锁保护、自动通讯点进行整理,尽量避免采用柜间通讯方式,减少通讯故障时危害,确实无法避免的柜间通讯,应采取防误动措施,在逻辑中进行甄别,可根据生产实际采取两个以上通讯点同时发生中断抑制措施。
硬件故障发生后,迅速进行判断,对于AP故障可以采取清灰、更换措施,IM通讯卡、CP1430网卡、电源模件应在停机时更换,此时应加大巡回检查频次,并对另一侧AP采取通风、抽湿等特护措施,做好事故预想,争取合适机会予以停机消除。
对于卡笼通讯模块IM614故障应及时对本卡笼内I/O卡件进行检查,排除现场因素,并对本卡笼I/O点失效进行预想,避免问题扩大。
1)减少长时间调用长周期历史曲线次数,特别要避免曲线调用不出时在其他多个OT上同时调用。
2)避免操作MOD光驱,减少MOD光驱产生故障信息及垃圾文件。
3)定期检查工控机负荷、重启机器,清除垃圾文件,防止硬盘空间过小。
4)保持工程师站环境、温湿度合格,减少粉尘对上微机危害。
5)利用机组停运机会加大SU硬盘容量、MOD,如无法更换暂时在软件中将MOD设备删除。
6)操作员站故障应急处理措施:长按XU主机电源按钮,停掉XU;长按所有OT主机电源按钮,停掉OT(包括工程师站室内的OT);从屏幕切换器或工程师站上对所有PU、SU执行init 0操作,若无法执行init操作时,则长按主机电源按钮,停掉 PU、SU(可同时停);P1a上电重启,若 OM软件不自动启动,执行Om.Start操作;用PL-t命令,查看P1a运行正常后,P2a上电重启,若OM软件不自动启动,执行Om.Start操作;P2a运行正常后,SUa上电重启,若OM软件不自动启动,执行Om.Start操作;SUa启动正常后,可将控制室内的任一台OT上电启动,该OT的功能正常后,可依次启动控制室内的其它OT;依次启动P1b、P2b、SUb、XU及工程师站内OT;用PL-t检查所有上位机的运行情况。
注意事项:不能同时启动两台及以上的OM上位机;当PU重启不成功时,将终端网停电,1min后上电,再次重启PU;异常处理过程中,当有OT功能正常后,运行人员不要查看曲线,并尽量减少操作。
DCS系统上层及底层网络通讯故障都会对电厂安全稳定运行造成重大影响,而通信问题则是DCS系统维护工作最为复杂和难以控制的。通信故障大都因通讯设计存在一定局限性,仅在特定工况下才表现出来,需要对通信原理进行系统分析并找出薄弱环节才能制定针对性预防措施,从消除导致通讯故障的特定工况作为切入点,完善应急处理方案,保证DCS系统可靠稳定运行。