杨 斌
(中核检修有限公司阳江分公司)
高可靠性是过程控制系统的第一要求。冗余技术是DCS系统设计中常采用的一种技术,是提高DCS系统可靠性最有效方法之一。为了达到高可靠性和低失效率相统一的目的,我们通常会在控制系统的设计和应用中采用冗余技术。合理的冗余设计将大大提高系统的可靠性,本文简述冗余技术在核电站DCS平台的应用,从而验证了冗余技术的重要性。
冗余技术就是增加多余的设备,以保证系统更加可靠、安全地工作。按照冗余的程度可分为1:1冗余、1:2冗余、1:n冗余等多种。在当前元器件可靠性不断提高的情况下,和其它形式的冗余方式相比,1:1的部件级热冗余是一种有效而又相对简单、配置灵活的冗余技术实现方式,如I/O卡件冗余、电源冗余、主控制器冗余等。因此,目前国内外主流的过程控制系统中大多采用了这种方式。当然,在某些局部设计中也有采用元件级或多种冗余方式组合的成功范例。
目前,DCS系统的部件级热冗余通常采用并联结构,如图1所示。只有当组成系统的并联部件全部失效时,系统才会停止工作。
图1
如各个子设备的可靠度分别为R1,R2…Rn,则系统的可靠度Rs可以表示为:Rs=1-(1-R1)(1-R2)…(1-Rn)
假设并联系统由可靠度为0.70的两台装置组成,按并联系统的可靠度计算公式可得可靠度为0.91,提高了0.21。
DCS控制系统冗余设计的目的:系统运行不受局部故障的影响,而且故障部件的维护对整个系统的功能实现没有影响,并可以实现在线维护,使故障部件得到及时的修复。冗余设计会增加系统设计的难度,冗余配置会增加用户系统的投资,但这种投资换来了系统的可靠性。它提高了整个用户系统的平均无故障时间,缩短了平均故障修复时间。因此,应用在重要场合的控制系统,冗余是非常必要的。
电源做为设备的动力源,是设备能正常工作的前提。为使控制系统能够安全、可靠、长期、稳定地运行,必须要保证电源的稳定性。故重要的设备和系统都要求经过多组电源同时冗余供电。
热备冗余:在2路电源经过一个电源切换控制器后输出一路电源,当一路电源故障失去时,控制器将自动切换到另一路供电,从而实现电源冗余。此类切换过程会造成短暂的失电,为确保设备和系统不受影响保持正常运行,对电源切换控制器切换的时间要求非常严格,基本都在10ms以内。
热供冗余:两路冗余电源以并联方式,同时给下游设备供电。此类方式消除了热备冗余切换过程中短暂失电的弊端。为防止并联的2路热供电源间产生电势差造成回流,2路电源的正极一般都经过二级管单向导流。DCS控制柜中给电磁阀供电的外部48V电源,均使用热供冗余方式。
DCS系统电源冗余设计时,必须根据所用电源的功率、可靠性、空开和电缆额定电流以及系统所规定的最短无故障时间等参数考虑电源个数、结构等。如图2,因1KCP403AR下游电磁阀较多,负荷大。上游LCA 48V电源经TB配电箱给下游1KCP403AR供电时,受限于TB柜每个空开额定电流不能高于15A的原因,每个TB分别引了5路支路给1KCP403AR供电,以分摊负荷。
图2
所有的DCS系统的供电基本上都是冗余设计,冗余降低了非计划性失去一路电源的风险,在提高系统持续运行的稳定性外,还保证了上游一路供电电源试验或维护时,DCS系统能继续正常运行。
通讯网络是DCS的基础骨架,所有DCS都是一种基于网络的分层、分布式机构,其配置的优劣和可靠性直接影响到DCS系统性能。通讯接口、载体(光纤、网线)等硬件故障率高的特点,要求必须使用冗余技术,提高网络的可靠性,才能确保DCS系统稳定运行。
以某核电机组DCS IA平台的MESH网络为例,采用树形拓扑结构。如图3所示,房间级、机组级和全厂级的三层交换机中都设有A、B两列冗余交换机。FCP控制器经冗余A、B通讯网接入A、B列上游冗余交换机中。整个MESH网满足多点容错功能。
图3
DCS系统控制器基本都采取了冗余配置。两块互为冗余的控制器配置完全相同,具有相同的操作系统、组态软件、控制信息。在冗余逻辑电路的控制下,主控制器处于运行控制状态,另一个控制器处在热备状态。
平台的FCP控制器使用容错技术。主FCP负责与I/O卡件数据通讯,进行逻辑运算和控制,同时将信息同步给从FCP,使主、从FCP的组态软件数据时刻保持一致。FCP具有故障自检功能,冗余的FCP对之间建有故障信息传递和故障判断机制,当前主FCP故障时,当前从FCP立即接手成为主FCP执行控制功能,从而实现无扰切换和无延滞切换。FCP具有在线热更换功能,当其中一块FCP故障时,可直接拔除,更换新的FCP。新更换的FCP将自动同步当前主FCP的组态软件和系统配置信息。
为降低I/O卡件故障导致信号采集断开的风险,重要的I/O点都设冗余配置。基本上所有的DCS系统都可以实现I/O冗余。其中I/O冗余卡件主要用到FBM204、208等模拟量采集卡件和FBM231、233等第三方通讯接口卡件。
模拟量采集卡件FBM204、FBM208的冗余设计方式为:FBM的底板上的通讯线,用于交换两个模块的状态信息,并且确定逻辑上的主从关系。两个FBM都正常时,首先上电的FBM为主,另一个为从。两个模块都从现场设备采集数据并实时更新,但是FCP只从主FBM读取数据。FBM具有自诊断功能,当主采集FBM故障时,发送一个故障信息给FCP,FCP自动从另外一块FBM读取数据。
第三方通讯接口卡件FBM231、FBM233的冗余设计方式为:FBM背板上的通讯线,用于交换两个模块的状态信息,并且确定逻辑上的主从关系。两个FBM都正常时,首先上电的FBM为主,另一个为从。两个模块都从现场设备接收数据,但是FCP只从主FBM读取数据,FCP同时发送数据给主从FBM,两个FBM都将数据传递给现场设备。现场设备必须每隔一段时间发送一个“故障诊断信号”给FBM,FBM以此判断现场设备的状态。初始时,两个FBM都管理一张内容一致的设备列表,当其中一个FBM的设备列表项减少时,说明该FBM有通讯故障,需要解决。通讯故障的FBM将置于故障状态,不再参与信号采集和控制功能。
GPS时钟常作为DCS的基准时钟,为DCS控制器、工作站、服务器定义了同一时间标签。避免了时钟偏差造成控制逻辑的时序紊乱,SOE顺序事故记录、趋势记录等不能正确记录事件发生的正确时间等问题。基准时
钟精度的重要性,使大部分DCS系统的GPS时钟都实现了冗余配置。
核电站DCS平台同样配置了冗余的GPS时钟。以某核电站机组为例,1MTKHC和2BTKHC工作站装有GPS时钟通讯卡,分别接收1路GPS时钟源,作为KCP系统的冗余的GPS时钟服务器。工作站和服务器通过网络时间协议(NTP)同步主时钟服务器的时钟,精度达到ms级。控制器的GPS时钟通过光纤直接同步时钟服务器的GPS时钟。2台冗余的时钟服务器经HUB将GPS时钟信号分发送到有IA控制柜的每个电气房间中的一个控制器机柜,控制柜间再经过光缆相互传递GPS时钟信号。每个电气房间形成2路冗余的GPS时钟链。
如图4,A路时钟从1MTKHC时钟服务器经HUB通过光缆送到9KCP581AR,再通过柜间光缆传递到下一个控制柜直至9KCP588AR;B路时钟从2BTKHC时钟服务器经HUB通过光缆送到9KCP588AR,再通过柜间光缆传递到下一个控制柜直至9KCP581AR。其中A网的始发控制柜9KCP581AR作为B网的终点控制柜;A网的终点控制柜9KCP588AR作为B网的始发控制柜。这样2路时钟倒流的设计,使得其中一个控制柜因断电或其他故障原因失去2路时钟,不影响其他控制柜的时钟同步。如2路时钟同向传递,若其中一个控制柜2路时钟断开,将直接导致下游控制柜的时钟也全部断开。
图4
当冗余的2路GPS时钟都正常时,1台机组选择1MTKHC为主时钟服务器,另外一台机组选择2BTKHC为主时钟服务器。当其中一路时钟故障或断开时,工作站或控制器将自动选择另一路正常的时钟源为基准时钟,从而保证了整个系统时钟标签的准确性。
工作站/服务器作为DCS人机接口和数据处理单元,每个中、大型控制系统中按功能、监测和操作的需求都会冗余设置多台。
某核电机组DCS平台设置了30多台工作站和服务器,按图5“IA工作站软件需求清单”安装有不同功能软件,从而分担一层功能需求。其中一层的API服务器和二层CFR服务器,作为一二层数据处理的接口服务器,设置有冗余的A、B列,每一列可独立起到完整处理和传递一二层数据的功能。正常来说,2-3台工作站/服务器就可以冗余实现一层的功能,但是实际中却使用多台实现,主要原因为:将所有功能软件高密度安装于同一台服务器上,将影响服务器处理性能,降低响应时间;不同系统和工作场合要求独立的工作站/服务器,以满足日常操作、和维护工作,如KSN、KDO、KME系统都有相应的工作站/服务器。
另外DCS一层IA工作站/服务器除KDO的ARC1HC、IS1HC两台服务器外,其他均装有IA 8.4.3套件,即都能够作为工程师站查看、控制DCS一层软件参数。同时,两台机组的一层IA在同一MESH网中,能相互访问和控制。这一特征在实现多重冗余的便利性外,同时也带来了机组日常调试、运行期间的跨机组误操作风险,需做好DCS一层工程站权限控制。
图5
冗余是一种高级的可靠性设计技术,1:1热冗余也就是所谓的双重化,是其中一种有效的冗余方式,但它并不是两个部件简单的并联运行,而是需要硬件、软件、通讯等协同工作来实现。将互为冗余的两个部件构成一个有机的整体,通常包括以下多个技术要点:
信息同步是主、备用部件之间实现无扰动(Bumpless)切换技术的前提,只有按控制实时性要求进行高速有效的信息同步,保证主、备用部件步调一致地工作,才能实现冗余部件之间的无扰动切换。如容错的2个FCP间,主FCP实现系统的数据采集、运算、控制输出等功能;同时实时将数据更新、同步给从FCP,从而2个FCP的软件信息时刻保持一致。
为了保证系统在出现故障时及时将冗余部分投入工作,必须有高精确的在线故障检测技术,实现故障发现、故障定位、故障隔离和故障报警。故障检测包括电源、微处理器、数据通讯链路、数据总线及I/O状态等。其中故障诊断包括故障自诊断和故障互检(主、备用卡件之间的相互检查)
在发现当前主设备故障后,备用设备必须快速、无扰动地接替故障设备的职能,对现场控制不造成任何影响。同时要求切换时间应为毫秒级,甚至是微秒级,这样就不会因为该部件的故障而造成外部控制对象的失控或检测信息失效等
冗余技术确保单一故障发生时,系统能够继续正常的工作外。还需要及时将故障信息作为报警信号触发出来,以便通知工程师及时检修维护,恢复冗余性。在设备发生故障时均能在一层系统监测站(SMON)中触发报警信息。一层DCS工程师通过日常巡检查看SMON状态,可及时发现和检修故障设备。
为了保证容错系统具有高可靠性,必须尽量减少系统的平均修复时间MTBR。要做到这一点,在设计上应努力提高单元的独立性、可修复性、故障可维护性。实现故障部件的在线维护和更换也是冗余技术的重要组成部分,它是实现控制系统故障部件快速修复技术的关键。部件的热插拔功能可以在不中断系统正常控制功能的情况下增加或更换组件,使系统平稳地运行。如IA系统的FBM和FCP均能热插拔检修。
因冗余技术的应用,使核电站机组在调试期间和正常功率运行期间,不再受局部故障的影响,故障部件的维护对整个系统的功能实现没有影响,并可以实现在线维护,使故障部件得到及时修复。同时保证了各项在引起电源单列失去、网络单网失去等试验进行时,机组能正常运行。使冗余技术存在于DCS平台的必要性再次得到验证。