任莉华 郎爱国 李世欣 吴彩霞
(环境保护部核与辐射安全中心,北京 100082)
仪控系统是整个核电站的“中枢神经”系统,它对确保核电站的安全、经济运行起着至关重要的作用。随着控制系统从传统的常规仪表向数字化的计算机控制系统方向发展,原有核电站分岛控制的格局逐步被打破,形成了新一代的基于数字通信网络的全数字化仪控系统。核电站数字化仪控系统将成熟的常规电站分布式控制系统(distributed control system,DCS)加以移植改进,并全面应用在核岛、常规岛、辅助厂房部分。全数字化仪控系统已有在国内外新建和改造核电站项目中成功应用的实例,这些应用证明了建设全数字化仪控系统的重要意义和经济性。
核电站的安全问题一直是核电发展的重要课题,仪控系统作为核电站的神经系统,其安全可靠性要求是非常严格的[1]。伴随着仪控系统的发展,尚无一种得到广泛接受的数字化仪控系统可靠性建模方法[2],如何分析和计算数字化仪控系统的安全性、可靠性、可用性和可维护性,还缺少标准规范的方法和统一的结论,研究数字化仪控系统的可靠性分析和计算方法在核电站的应用就显得尤为迫切。新技术的采用不能以降低系统可靠性和可用性为代价[3]。本文介绍了典型的核电站数字化仪控系统中所采用的各种高可靠性技术,提出了一种分析和计算仪控系统可靠性和可用性的方法。该方法将仪控系统划分为现场控制层、系统服务层、监测控制层等子系统,利用可用性框图,分别计算每个子系统可靠性参数,然后通过系统可用性框图,计算出整个系统的可靠性参数。
对于一个完整的核电站来说,目前比较公认的自动化控制系统结构分级是将整个系统纵向地从底层到高层分为四级,称为Level 0 到Level 3。Level 0 为现场仪表级自动化设备,主要包括传感器、变送器、执行器等。这个级别的设备基本上由仪表类的产品组成。Level 1 为现场控制级自动化设备,主要包括将现场仪表的模拟信号转化为数字化过程数据的过程输入输出设备和执行回路控制、逻辑控制和顺序控制的现场控制器。这个级别的自动化设备一般由可编程序控制器(programmable logic controller,PLC)或分布式控制系统(DCS)组成。Level 2 为监督控制级自动化设备,主要包括过程数据的集中处理和存贮设备以及人机界面设备。这个级别的设备主要由多台计算机(服务器、工作站等)以及将这些计算机连接在一起的计算机局域网络组成。Level 3 是核电站全厂管理级自动化设备,主要由多台厂级管理计算机和连接各计算机的厂域计算机网络或广域网组成。
图1 为百万千瓦级压水堆核电机组的全数字化仪控系统的典型系统结构图,该系统主要由现场控制层、系统服务层和监测控制层三层组成,完成数据采集和数据集中处理功能。仪控系统是核岛、常规岛及其辅助设备在正常运行工况、系统检修工况、事故工况及事故后工况等场合下的重要监视手段,为操作人员及其他有关人员提供正常操作、事故诊断及其事故后分析所需的各种信息,完成现场开关量和模拟量数据采集与处理、报警处理和显示监视、日志记录、历史数据管理、报表打印等功能。
图1 典型核电站数字化仪控系统结构图Fig.1 Typical system architecture of I&Csystem for nuclear power plant
整个系统构架分为三个层次。
①现场控制层:主要包括控制器、过程I/O 模块等。控制器通过现场总线与I/O 进行通信,I/O 设备将采集数据传输给控制器,控制器进行算法运算并将信息发送给I/O 设备进行输出。
②系统服务层:主要包括核岛(NI)实时服务器、常规岛(CI)实时服务器、计算服务器和历史服务器等。服务器分别与监控层操作站和现场控制层控制器连接,一方面接收控制器中的采集和运算的数据,另一方面发送监控层的控制指令给控制器。
③监测控制层:主要包括各类操作员站和工程师站等。通过从服务器获取各种数据信息并进行显示,将人机交互的控制指令等信息传递给服务器。
核电站的高安全标准对相应控制系统的安全性和可靠性提出了高要求[4],仪控系统应采用有效的设计方法和技术方案来提高系统的可靠性和可用性,以满足系统安全可靠运行的要求。
(1)控制站硬件可靠性设计。
相对常规控制系统,核电仪控系统对硬件模块的可靠性提出了更高的要求。在核电产品的研发过程中,应全面应用电子可靠性设计的理论和方法,并广泛借鉴通信、航空、航天等领域的电子可靠性设计的最佳实践,建设满足核电硬件产品研发制造的高可靠平台。
核电仪控系统最小组成单元是电子元器件,其质量与可靠性是保证整个仪控系统可靠性的基础[5]。在进行硬件模块设计时,应根据各个硬件模块内电阻、电容、电感、二极管、三极管、集成电路等元器件种类和数目,参考国家军用标准《GJBZ 299C-2006 电子设备可靠性预计手册》[6],计算相应硬件模块的工作失效率和平均故障间隔(mean time between failures,MTBF)。典型的硬件模块可靠性预测计算如表1 所示。
表1 硬件模块可靠性预测Tab. 1 Reliability prediction for a typical hardware module
续表1
失效率为9.628 780,平均故障间隔时间MTBF =1/总失效率× 106× 103 855. 32。数据依据:GJB/Z 299C-2006。每个I/O 模块的通道电路都应采用独立的电路设计,进行有效的通道隔离和通道诊断设计,减少通道间的耦合性,保证模块在单通道故障不会对模块的其他通道带来影响和干扰。
在系统设计中,采用冗余技术是提高控制系统可靠性的有效方法和主要措施。冗余控制使得系统在运行时不受局部单一故障的影响,可实现在线更换和维护。同时,故障部件离线修理不影响系统正常运行,从而可达到提高系统可靠性和降低失效率的目的[7]。整个控制站采用双电源、双CPU 控制器和双通信总线的冗余配置设计方案,如图2 所示,减少了系统停机的概率,提高了系统的可靠性。
图2 控制站冗余设计Fig. 2 Redundant design of the control station
机笼的电源模块采用冗余配置,当一个电源模块故障后,另一个电源模块仍可为机笼提供足够的功率。CPU 控制器模块也采用冗余配置,当一个控制器模块故障后,自动切换到另一个控制器模块工作。
(2)集群式多重冗余服务器架构。
核电站数字化系统采用统一系统架构,实现对核岛、常规岛和辅机系统的一体化监控,系统I/O 点数规模由几千点扩大到几万点,这对仪控系统的处理能力提出了更高的要求。为满足上述需求,系统采用了集群式数据服务器结构,支持多台甚至数10 台冗余服务器协同工作,满足单一故障准则和防止共模故障[8]。系统服务器根据不同功能可以划分为核岛(NI)实时服务器、常规岛(CI)实时服务器、历时服务器、计算服务器、通信服务器和配置服务器[9]。
实时服务器采用双冗余设置,完成实时采集和处理、实时数据库管理和存取和系统下装等功能。其中,核岛(NI)实时服务器覆盖核岛侧,常规岛(CI)实时服务器覆盖常规岛侧和辅助系统。这些实时服务器收集和提供实时电厂数据,并将数据存储在各自的数据库。
计算服务器接收来自核岛和常规岛实时服务器的报警和事件信息,整理和存储这些数据在本地的存储器,并且提供实时的报警和事件信息到整个机组。
历史服务器收集来自核岛和常规岛部分的数据信息,并且存储到长期历史数据库中,包括操作日志、过程值等信息。
通信服务器具有通信网关功能,提供与安全级DCS 系统、三废(KSN)系统、汽轮机DCS 系统以及管理信息MIS 系统的通信接口功能,实现与接口系统的数据交换。
配置服务器提供对整个系统工程配置数据的统一管理、版本控制和下装部署等功能。
(3)冗余网络设计。
核电仪控系统采用冗余的网络通信链路确保信息传输的可用性[4]。当工作链路由于某种原因出现故障而不能正常工作时,冗余链路就可以代替故障链路继续完成相同的功能,从而实现系统的不中断工作,保障现场设备和人员的安全性,减少损失。
系统网络由A、B 两网构成,两网互为备份并互相监控对方的工作状态。其中A 网交换机状态能通过B网进行状态监视和远程配置管理,反之B 网的交换机状态也能通过A 网进行状态监视和远程配置管理。核电站数字化仪控系统实现对核岛、常规岛和辅机系统的一体化管理,系统和工艺复杂,生产过程中需要监控大量的设备和工况处理过程。在核电站现场实际操作中,一个操作员往往需要同时监控和操作多个画面,获取多方面的信息。系统可为一个操作员提供多达4屏的显示屏,并可通过使用一套鼠标键盘在4 个显示屏间平滑移动和实现交互操作。多屏操作站设计示意图如图3 所示。
图3 多屏操作站设计示意图Fig.3 Schematic diagram of the design for multi-screen workstation
整个控制室根据调度员工作职责不同,分别设置多个操作员站、值班长站、安全工程师站等操作站。任何一台操作站的硬件和软件配置完全相同,均可实现核电调度员所需的各种功能,并通过不同的用户身份和角色登录,获取不同的监控操作权限,激活相应的人机界面,实现图形化显示、对话管理和信息编辑等功能。控制室的多台操作站互为备份,提供相同的功能,通过权限管理可以互相替代。
(4)自诊断与在线维护。
系统在运行中,除上述高可靠性和可用性保障外,还充分应用系统强大的自诊断、报警和维护等功能,及时通告系统运行中的问题并加以及时处理,包括所有站点的在线诊断及故障通告、设备的在线诊断及故障通告以及硬件模块的带电插拔和在线更换等[10]。
可靠性是指系统在规定的条件下和规定的时间段内完成规定功能的能力,通常关注系统的平均无故障时间MTBF(系统相邻2 次故障发生时刻之间的时间的平均值,h)和故障率λ。可维护性是指系统恢复到能够履行其职能状态的能力,其指标为平均故障修复时间MTTR(系统失效恢复到其正常功能状态的期望时间,h)[11]。可用性是指系统在规定时间内能够履行职能的概率,其指标为可用度A。相应计算公式如下:
图4 说明了MTBF 与MTTR 的含义及关系,也说明了MTBF 和MTTR 的统计性质。
图4 MTBF 与MTTR 的含义及关系Fig.4 Meanings of MTBF and MTTR,and their relationship
由上图可得出:
一个系统的MTBF 和MTTR 是由统计计算得出的,是一个概率统计值,而不是由确定性公式计算出来的。核电站仪控系统由现场控制层、系统服务层和监测控制层三层组成,系统可用率应大于99.99%。
为了有序计算整个系统的可靠性和可用性指标,采用以下方法进行计算:①对系统逐层向下分解,自顶向下建立系统可靠性框图;②根据最低单个设备提供的可靠性数据,自底向上计算系统的可靠性和可用性指标。
核电站仪控系统的设备可以划分为关键设备和非关键设备。如果一个设备故障影响到整个系统的运行,它被视为关键设备。例如,实时服务器是关键设备,而打印机则是非关键设备。因为服务器故障会导致系统崩溃(在冗余服务器已故障的前提下),但如果打印机发生故障,仅仅会影响打印功能。
根据2.1 节系统结构,识别出系统关键设备,可得出如图5 所示的系统可靠性框图。
图5 系统可靠性框图Fig.5 Block diagram of system reliability
典型核电仪控系统单个设备的可靠性和可用性数据如表2 所示。
表2 设备可靠性和可用性数据Tab.2 Data of reliability and availability of equipment
为构建一个开放的核电站数字化仪控系统,除现场控制站采用专用硬件模块外,监测控制层和系统服务层硬件多采用商用现货(commercial off the shelf,COTS)设备,包括各台式计算机、服务器和交换机等硬件设备。对于商用现货COTS 硬件设备,可从设备厂家获取相应设备的可靠性数据;对于现场控制站专用硬件模块,可参考相关标准如国家军用标准《GJBZ 299C-2006 电子设备可靠性预计手册》等,预测相应硬件模块的工作失效率和平均故障间隔MTBF。
系统的维修性取决于系统各个部件的维修性以及系统的物理结构和功能结构,其中,物理结构影响到存取的难易程度和更换性;功能结构影响到诊断更换等的难易程度[12]。平均故障修复时间(MTTR)应包括设备从发现故障到设备修复完成所有过程需要花费的时间,这些过程主要考虑了如通知仪控维修人员、问题的沟通、现场勘查故障定位、获取故障设备的备件、隔离部件、拆卸故障设备、更换、组装、检查和测试等环节[13]。为确定典型设备的平均故障修复时间MTTR,本文假定所有设备都有合理的备品备件和允许在线更换;对于专用硬件,系统提供相关的诊断功能和在线热插拔功能;对于COTS 商用现货,系统提供快捷的备份和恢复手段。
以下提供的计算过程,假定系统所用硬件包括计算机、硬件模块等设备在可用期的失效时间服从电子器件的指数分配规律。
(1)MTBF 计算。
系统采用冗余设计方案,在出现某设备单点故障时不会导致该系统的任何功能的丧失,只有冗余设备全部失效才导致系统功能丧失。因此,采用以下并联计算模型计算系统冗余设备的MTBF:
对于主备冗余系统,n=2。根据上式,可分别计算出冗余工作站、交换机和服务器的MTBF,如表3 所示。其中,冗余工作站按照双冗余简化计算。
表3 冗余设备的平均无故障时间Tab.3 MTBF of redundant equipment
根据系统可靠性框图,整个系统由冗余工作站、冗余系统网交换机、冗余实时服务器、冗余控制网交换机、冗余控制器和I/O 模块串联而成。串联系统内任意一个元件的失效都会导致整个系统的完全故障,因此,采用以下串联计算模型计算整个系统的MTBF:
(2)MTTR 计算。
串联和并联系统的MTTR 都是按系统的各个设备失效率进行加权平均的平均值:
对于冗余设备,单个设备的平均故障修复时间MTTR 和设备失效率λ 是完全相同的,设n =2,λ1=λ2,MTTR1=MTTR2,按上述公式可得出相应的MTTR计算结果为:
可见,任何2 个冗余设备,其MTTR 仍为单个设备的MTTR。因此,可计算整个系统的MTTR 如下:
(3)可用性计算。
系统可用性结果为:
通过计算结果可以看出,该核电仪控系统可用率满足相应指标需求。
核电站仪控系统由现场控制层、系统服务层和监测控制层三层组成,系统单个设备故障后,可以通过在线维修和更换的手段恢复系统的功能。本文介绍了典型的核电站数字化仪控系统中所采用的各种高可靠性技术,提出了一种分析和计算仪控系统的可靠性和可用性的方法。该方法将仪控系统划分为现场控制层、系统服务层、监测控制层等子系统,通过对系统自顶向下逐层分解得到系统的可靠性框图,分别计算每个子系统可靠性参数,然后通过系统可靠性框图,计算出整个系统的可靠性参数。计算结果表明,通过采用适当的可靠性设计措施,系统能够满足高可靠性和可用性要求。本文专注于核电站仪控系统本身的可靠性分析,而核电厂整体仪控系统可靠性应结合工艺过程和现场设备进行综合分析[14]。
[1] 李明利,唐环,谢逸钦,等. 核电厂数字化仪控系统可靠性指标计算方法研究[C]//第一届中国(国际)核电仪控技术大会论文集,北京:中国核学会,中国仪器仪表学会,2011.
[2] 周世梁,杜文. 基于故障树方法的核电厂数字化仪控系统可靠性分析[C]//第一届中国(国际)核电仪控技术大会论文集,北京:中国核学会,中国仪器仪表学会,2011.
[3] 侯伟宏,张沛超,胡炎. 数字化变电站系统可靠性与可用性研究[J]. 电力系统保护与控制,2010,38(14):34 -38.
[4] 郑养波,彭小强,董志彬. AP1000 仪控系统的高可靠性技术应用分析[C]//第一届中国(国际)核电仪控技术大会论文集,北京:中国核学会,中国仪器仪表学会,2011.
[5]白涛,金成日,张春雷. 核电厂仪控设备研制中元器件筛选问题的讨论[J]. 自动化博览,2013(4):83 -88.
[6] 中国人民解放军总装备部. GJBZ 299C-2006 电子设备可靠性预计[M]. 北京:总装备部军标出版发行部,2007.
[7] 刘冲,付江梅. 双重冗余PLC 控制系统的可靠性和可用性研究[J]. 自动化仪表,2010,31(9):44 -46.
[8] 萄国楷,黎国民,王群峰. 核电站安全分级对DCS 系统设计影响分析[J]. 核动力工程,2011,32(5):23 -28.
[9] 邹志励,郭东玲. 防城港核电厂非安全级DCS 网络结构和设备功能浅议[J]. 机电信息,2012(3):46 -47.
[10]王维建,马骏. XDC800 控制系统的可靠性分析[C] //第一届中国(国际)核电仪控技术大会论文集,北京:中国核学会,中国仪器仪表学会,2011.
[11]邸丽清,袁湘鄂,王永年. CTCS-3 级列控系统RAM 指标评价方法研究[J]. 中国铁道科学,2010,31(6):92 -97.
[12]韩毅,张允炜. 核电站运维的DCS 可信性研究和应用[J]. 仪器仪表用户,2014,21(4):5 -7.
[13]徐冬苓. 基于RBD 方法的数字化反应堆保护系统可靠性分析[J]. 核电子学与探测技术,2013,33(7):802 -807.
[14]王眷卫,杨栋. 基于故障树的核电厂过程控制DCS 系统可靠性分析[J]. 数字化用户,2013(13):100 -101.