周 策,温 武
(山西电力科学研究院,山西 太原 030001)
随着信息技术的发展,分散控制系统DCS(Distributed Control System)在火力发电厂的覆盖越来越广,自动化程度越来越高。但不管何种DCS系统,在电厂的应用中都不同程度地存在死机现象。近年来,随着接入DCS的系统增多,DCS的通讯量变大,网络堵塞现象就变得十分频繁,并使得各种人机界面的结点死机现象增多,严重时导致整个DCS系统瘫痪,对发电厂的安全运行造成很大的威胁。
山西平朔煤矸石电厂二期扩建工程(2×300 MW循环流化床直接空冷)机组的热工自动化设备主要采用德国SIEMENS公司生产的SPPA-T3000分散控制系统,其功能包括计算机监视系统DAS(Date Acquisition System)、模拟量控制系统MCS(ModulatingControl System)、顺序控制系统SCS(Sequence Control System)、锅炉炉膛安全监控系统FSSS(Furnace Safety Supervision System)、汽机保护系统TSI(Turbine Supervisory Instrumentation)、汽机电液控制系统DEH(Digital Electronic Hydraulic)、电气自动化控制系统ECS(Electric Control System)和联锁保护等。热工自动控制的范围涵盖锅炉、汽机、发电机—变压器组和厂用变。
西门子SPPA-T3000系统的总线为工业以太总线网,采用虚拟环技术,实现冗余容错,其通讯速度为100 Mb/s。最大子站数量无限制,总长最大为150 km。通讯总线由若干个光纤交换机模块OSM(Optical Switch Module) 组成。OSM模件为光缆总线接口总站,带有自己的电源。通过OSM模件,SPPA-T3000系统的各成员以星型结构连接在一起。每个OSM模件所连接的节点数量不超过6个。2台机组公用系统另外设置与单元机组独立的冗余高速数据通讯网络[1]。
西门子SPPA-T3000分散控制系统现场级控制器采用西门子S417控制器,按系统划分并兼顾DCS功能分布配置。处理器模件采用冗余配置,当正在工作的主处理器模件发生故障时,系统能自动无扰切换至与其冗余的从处理器模件。单元机组CPU处理器配置为锅炉7对、汽机7对,电气1对;公用CPU处理器配置为电气公用系统及热控公用1对、循环水泵房公用1对。人机接口配置用于过程监视的人机接口站,每台机组包括操作员站4套、工程师站1套、历史数据站1套、大屏幕操作站2套。
数据通讯系统的通讯负荷率,在最繁忙的情况下,不超过40%。处理器内部存贮器有50%存储裕量,外部存贮器有60%外存裕量。控制器站的处理器在最大负荷下处理能力有50%裕量,操作员站在最大负荷下处理器处理能力有60%裕量。系统本地输入输出点数见表1。
表1 本地信号I/O点数量(机组DCS)
在山西平朔煤矸石电厂二期4号机组进行锅炉冷态通风实验时,当风烟系统的风机启动后,画面上风烟系统侧所有测点均显示为故障点,设备操作面板点击后指令也无法发出,不能对设备进行操作。只能紧急就地停设备,终止实验。开始时判断是否因为风烟系统的控制器掉电或控制器逻辑未激活等原因导致控制器工作不正常,于是检查该控制器,发现控制器工作正常,又将该控制器的逻辑代码进行了重新下载,下载后画面显示正常,可以对设备进行正常的操作。但重新进行实验时,又发生了相同的问题。怀疑是否为控制器的硬件出现了问题,更换了S417处理器,但问题仍未得到解决。在处理过程中发现,该控制器在较少设备启动时通讯正常,而在较多设备启动时会发生通讯故障,检查系统诊断记录文件,发现提示为通讯缓存溢出。显示如下:
WARN[HMI-LISTENER-THREAD]com.pg.orion.simatic.SimaticComServer HMI Buffer Overflow
ERROR[HMI-LISTENER-THREAD]com.pg.orion.simatic.SimaticComServer Simatic HMI Communication suffer overflow
通过SPPA-T3000的诊断软件,发现在启动过程中,控制器的归档事件数及事件变化率都非常高,在风烟系统侧设备还未启动时,此控制器事件数就已达到了5 000件/min,大大超出了正常规定的单控制器2 500件/min左右的事件率,当设备启动后,该控制器事件数最大达到了8 000件/min。导致服务器送画面的进程缓冲溢出,造成了通讯堵塞,操作画面死机。
分析认为可能是为该控制器分配的输入、输出点数太多的原因,于是将接入该控制器的部分远程通讯采集的I/O点移至了其他控制器,但这样处理后控制器的事件数没有明显的变化。
分析通讯缓存溢出的原因为相关进程内部数据设置过小不能满足实验时设备启动后的正常运行条件。相关进程发生数据溢出,最终导致该控制器与画面的通讯中断,操作画面死机。分析原因后,进入服务器检查发现服务器的各进程容量设置偏小。根据SPPA-T3000的系统配置要求将服务器各进程容量修改如下:
alarmcontainer(AC)修改为384 Mbytes;
archive container(ARC)修改为196 Mbytes;
simatic communication container(CC) 修 改 为384 Mbytes;
iotools container(IOTOOLS)修改为256 Mbytes;
report container(RC)修改为128 Mbytes。
本次修改未能根本解决操作画面死机的问题,重新进行通风实验后仍然出现通讯问题,事件率偏高。表明即使系统进程容量改大后,仍不能处理过大的系统事件数。
通过研究事件记录发现,这些以极高频率发生的事件主要是由温度、压力、风量等模拟量信号的变化产生的,而在这些模拟量信号的逻辑图中,几乎所有输入、输出点的模拟信号监视器功能块的死区都没有设置,在进行设置后,事件发生率有了不小的下降,但在操作高峰时仍会有通讯缓存溢出的情况。对记录中频繁变化的模拟量设置了滤波环节,发现风烟侧设备未启时的事件率从5 100件/min降至2 500件/min。在逻辑中又对模拟量信号的扫描周期进一步优化,具体设置如下:
温度,400 ms改为1 200 ms;
压力,100 ms改为400 ms;
风量,100 ms改为400 ms;
流量,100 ms改为400 ms。
又将逻辑中许多没有归档必要的信号点的归档和报警功能取消,以减小由这些信号产生的事件数。
通过这些优化,该控制器的事件率从2 500件/min降至1 100件/min,大大减小了该控制器与服务器间的通信负荷率,满足了设备启动、进行实验时因事件数增加,所需的通信负荷率的余量,保证了系统的通信正常。锅炉冷态通风实验重新进行,风烟侧设备再启动后,通讯正常,整个实验期间未出现问题。
a)模拟量的上下限、死区一定要设置,如果上下限都设为0,那么死区即使设了也不起作用,模拟量极细微的变化也会送画面和控制器的通讯进程处理,严重消耗了通讯资源。死区设置可以按量程的百分之一来设,部分重要测点如闭环调节信号等对调节品质有较大影响,对信号实时性要求较高的点,可以单独将死区设置的较小,使信号变化得灵敏一些。
b)软件组态时模拟量采集块的滤波功能要打开,这样可以有效地减少干扰引起的模拟量波动变化,并且要检查模拟量的屏蔽接地,防止外部干扰引起信号频繁抖动。
c)对逻辑进行检查,把一些不重要的逻辑点的历史归档、报警取消。
以上措施,可以有效减小控制器的事件率,防止控制器的通信能力饱和,发生堵塞,引发控制系统的故障,甚至操作画面死机。对其他使用西门子SPPA-T3000系统的电厂,也有很大的借鉴意义。经过优化后,山西平朔煤矸石电厂二期4号机组的整个DCS系统直到机组的168 h运行结束,都未再发生操作画面死机和控制系统通信故障现象。整个调试期间,各系统控制器的事件数都维持在了较低的水平。
发电厂在DCS的使用过程中,一定要注意系统的负荷率,尤其是通讯负荷率问题。通讯负荷率在很大程度上已经成为了DCS控制系统正常运行的瓶颈。在DCS控制系统的招标、设计、组态过程中,不能单纯地计算输入、输出点数,靠保证输入、输出点数的通道裕量来避免负荷率高的问题,还要考虑实际生产的动态过程中,可能产生大量通讯负荷率的因素。所以,在DCS控制系统进行设计、组态时,要建立科学合理的通讯负荷率估算和控制方法,在实际运行中,当发现通讯负荷率过高时,要及时对系统进行优化,防止发生严重问题,影响安全生产。
[1] 张澎涛,周鹏,张秉权,等.西门子SPPAT-3000 DCS系统的应用与优化[J].内蒙古电力技术,2008(4):70-73.