赵丽莉,王梦璕,倪明,李雪明
安全稳定控制装置硬件系统可靠性分析
赵丽莉1,王梦璕2,倪明1,李雪明1
(1.国电南瑞科技股份有限公司,江苏 南京 211106;2.江西省电力设计院,江西 南昌 330096)
安全稳定控制装置的可靠性对电力系统的运行有着重要影响。以SCS-500E安全稳定控制装置为例,分析了安全稳定控制装置硬件系统的组成及内在配合关系。将故障树法与马尔可夫状态空间法相结合,建立了安全稳定控制装置硬件系统的故障树模型和马尔可夫状态空间模型,由此求得装置分别处于正常运行、隐性误动、隐性拒动和停运4个不同运行状态时的概率。并定义了安全稳定控制装置硬件系统的可用度、处于隐性故障状态的概率及因隐性故障发生停运的概率。最后以算例验证了所求结果符合实际情况,表明所用方法的准确性。
安全稳定控制装置;硬件系统;隐性故障;故障树;马尔可夫
安全稳定控制装置作为电网安全防御的第二道防线,其目的在于当系统出现紧急状态时采取紧急控制以防止事故扩大。过去,安全稳定控制装置已为电力系统的安全稳定运行做出巨大贡献,今后也将一直担当着不可或缺的角色。但由于违规操作、定值设置与实际电网不匹配及设备长时间运行面临的老化等隐患问题,由安全稳定控制装置的失效导致的电网故障不少[1-2]。我国即将建成具有“三纵三横一环网”架构特色的特高压互联电网,面对如此复杂的网架,更需要加强对二次控制系统可靠安全运行的监控。不同于继电保护装置,安全稳定控制装置控制范围广,特别是区域安全稳定控制系统采取了分层分布式控制方式,利用多厂站的安全稳定控制装置的相互配合,实现了区域或更大范围的电力系统的稳定控制。因此,一旦安全稳定控制系统发生不正常动作行为,将造成相当严重的后果,付出很大代价。如某地区电网的安全稳定控制子系统因通信误码、安全稳定控制装置通信模块及校验存在漏洞而误动,误切了增城地区714 MW的负荷。
为适应电网发展,安全稳定控制装置也一直在不断升级中[3],随着电网的建设与发展,SCS-500E分布式安全稳定控制装置已得到广泛应用,后期响应智能变电站的建设,将推进SSP-200安全稳定控制装置的应用。虽然升级过程中,安全稳定控制装置的可靠性得到一定提高,但仍旧存有一定缺陷。系统的可靠运行有赖于装置的可靠性,因此有必要对安全稳定控制装置的可靠性进行分析。安全稳定控制装置的可靠性研究[4]相对较少,而隐性故障的研究更是才刚刚起步。
继电保护装置与安全稳定控制装置同属电力系统安全防御的一部分,二者在结构上有一定的相似性。相对来说,继电保护的可靠性研究[5-7]较多也较成熟,常用方法主要有故障树法[8]、马尔可夫状态空间法、蒙特卡罗法和重点抽样法等[9]。为充分利用这些方法的优势,一些研究将这些方法进行糅合,形成新的方法,如故障树法与蒙特卡罗法的结合[10]、故障树法与马尔可夫状态空间法的结合[11]。除此之外,其他方法如基于成功流的用于分析继电保护系统的逻辑原理可靠性的GO法[12],基于风险的用于寻找对继电保护可靠性产生影响的关键因素的重要度分析法[13]等也相继被提出,旨在能更准确地评估继电保护的可靠性及其对电力系统的影响。
从装置自身来看,一个装置本体分为硬件和软件两部分,硬件(电子器件)的可靠性是保证整个装置可靠运行的重要基础。本文借鉴继电保护可靠性研究经验,以SCS-500E分布式安全稳定控制装置为例,将故障树法与马尔可夫状态空间法相结合,提出了该装置硬件系统的可靠性的分析方法。首先在分析了安全稳定控制装置硬件系统的组成及内在配合关系的基础上,建立了安全稳定控制装置硬件系统失效的故障树模型,由此得到安全稳定控制装置硬件系统的失效率,然后将该失效率应用到安全稳定控制装置硬件系统的马尔可夫状态空间模型的建立中。文中认为安全稳定控制装置硬件系统存在完全正常运行、隐性误动、隐性拒动和停运4个不同的运行状态,建立马尔可夫状态空间模型和马尔可夫状态空间方程,获得装置硬件系统处于4个不同运行状态的概率。并定义了安全稳定控制装置硬件系统的可用度、处于隐性故障状态的概率和因隐性故障而停运的概率。最后,以算例验证,对安全稳定控制装置硬件系统的可靠性进行了分析。
1.1 硬件系统组成
安全稳定控制装置按功能由主控单元、I/O单元和通信单元三部分组成。不同系列的安全稳定控制装置的硬件系统组成会有所差别。本文以SCS-500E安全稳定控制装置为例介绍装置硬件系统组成。
SCS-500E分布式稳定控制装置采用背插式模块化、整体面板结构,同时根据功能将输入输出模块、通信模块和决策模块分别置于I/O单元、通信单元和主控单元插箱内。主控单元为系统的枢纽单元,负责分析、决策和输出控制,同时提供系统的人机接口、通信管理等。I/O单元是装置与外部的直接接口,负责采样分析和出口输出,通过光纤与主控单元连接,主要完成数据的采集、计算、单元故障判断以及与主机箱的信息交互。通信单元将主控单元通过光纤接口传送来的数据转换为八路E1/64K同向接口数据,以便接入SDH或PCM设备,通过数字通信网络传输到对侧。通信单元的硬件设计基于大规模可编程逻辑阵列器件,使用原理图和VHD硬件描述语言编程,实现所要求的全部逻辑功能。
一套安全稳定控制装置的主控单元、I/O单元及通信单元是由一系列的稳定控制模件(Stability Control Model, SCM)插入相应的插箱组成。SCS- 500E装置的主控单元内包括电源模件、接口管理模件、中央决策模件、光通信扩展模件、出口模件、强电开入模件、弱电开入模件以及模入模出模件;I/O机箱包括电源模件、交流头模件、滤波模件、DCJ模件、出口模件、开入模件;通信机箱内部包括通信主控板和通信接口板。
1.2 硬件系统原理
SCS-500E装置每一插箱内各稳定控制模件以一定的逻辑关系相互联接,通过机箱背板连成完整的硬件系统。主控单元、I/O单元和通信单元的硬件逻辑原理示意图如图1所示。
图1 SCS-500E装置硬件逻辑原理示意图
本文中主要考虑由元件失效引起的安全稳定控制装置失效,当单个元件发生失效时,其所在的稳控模件即视为失效,则整个装置视为失效。由于按键面板及触摸屏处理模件、光通信接口模件与装置的联系较弱,其对装置正常运行的影响很小,可忽略。根据安全稳定控制装置硬件系统构成和原理,可建立安全稳定控制装置硬件系统失效的故障树模型如图2所示。
图2 安全稳定控制装置硬件系统失效故障树模型
失效率是评估装置可靠性的重要指标之一,定义为装置在该时刻尚未失效,之后单位时间内发生失效的概率。稳控模件由大量的电子元器件构成,多数元器件失效率计算要考虑基本失效率、环境系数、温度应力系数、质量系数、成熟系数等因素[14]。具体某个元器件的失效率计算可能还需考虑元器件自身的一些属性,如晶体管还需考虑电压应力系数和结构系数因素,电容器还需考虑电容量系数和串联电阻系数因素,集成电路需考虑电路复杂度失效率和封装复杂度失效率因素。在元器件的部分属性不知的情况下,可通过其已知的属性查找该元器件的通用失效率来替代。根据《MIL-HDBK-217F》可计算各电子元器件的失效率,再由式(1)求各稳控模件的失效率。
式中:SCM为单一稳控模件失效率;为元器件的失效率;为稳控模件内元器件种类数;N为元器件的总个数。
根据图2所示逻辑关系知安全稳定控制装置的失效率为
式中:为装置失效率;main、IO和CU分别为主控单元、I/O单元和通信单元的失效率;、和分别为主控单元、I/O单元和通信单元的稳控模件总数。
虽然理论上只要某个稳控模件失效后装置就失效,装置失效率应如式(2)最终为各个稳控模件失效率之和,但是各个稳控模件对于装置的重要性不一样[15],所以考虑各稳控模件对于装置的重要性,赋予各稳控模件权重,式(2)可改写为
式中:x为主控单元稳控模件在安全稳定控制装置中对应的权重;为I/O单元稳控模件在安全稳定控制装置中对应的权重;为通信单元稳控模件在安全稳定控制装置中对应的权重;。
经分析安全稳定控制装置存在4个状态:完全正常运行状态、隐性误动状态、隐性拒动状态和停运状态。安全稳定控制装置正常运行时,若其某个元器件发生失效而没被检测出则装置进入隐性故障状态(隐性拒动状态或隐性误动状态),如若元器件故障被检测出则装置进入停运状态;当装置的隐性故障被外界故障触发后会导致装置发生误动或拒动,装置相应进入停运状态。
3.1 状态空间模型建立的假设条件和参数说明
1) 假设安全稳定控制装置的在线自检和监视的故障检出系数为1,未检出元器件故障引发的误动次数占未检出元器件故障引发的误动与拒动次数和的百分比为2,则装置由正常运行状态进入隐性故障误动状态的转移率和进入隐性拒动状态的状态转移率分别为3和4,由正常状态进入停运状态的状态转移率为5,具体详见式(4)~式(6)。
(5)
(6)
式中,为安全稳定控制装置硬件系统的失效率。
2) 设故障修复率为1,不考虑通信通道问题,不考虑装置的闭锁故障问题,装置故障后即能被立即修复恢复如初,则装置由停运状态经修复后即进入完全正常运行状态,状态转移率为1。
3) 设定期检修率为2,且装置的隐性误动故障及隐性拒动故障在定期检修时可被发现修复进入完全正常运行状态,则装置由隐性误动状态和隐性拒动状态进入完全正常运行状态的状态转移率均为2。
4) 设触发安全稳定控制装置隐性拒动故障和隐性误动故障的故障发生率分别为s和ex,则装置由隐性误动状态和隐性拒动状态经外界故障触发后进入停运状态的状态转移率分别为s和ex。
5) 隐性误动状态与隐性拒动状态之间可以发生相互转移,装置由隐性误动状态到隐性拒动状态的状态转移率为6,由隐性拒动状态到隐性误动状态的状态转移率为7。
6) 上述故障率、修复率及占比等参数均为常数。
3.2 状态空间模型
结合上述条件和参数可建立安全稳定控制装置硬件系统的马尔可夫状态空间模型如图3所示。
图3 安全稳定控制装置硬件系统马尔可夫状态空间模型
根据图3的安全稳定控制装置硬件系统的马尔可夫状态空间图建立式(7)所示的状态空间方程。
(8)
3.3 硬件系统可靠性指标
由式(7)可求得安全稳定控制装置处于完全正常运行、隐性误动状态、隐性拒动状态和停运状态4个状态时的概率。当安全稳定控制装置处于隐性误动和隐性拒动状态时,若装置的隐性故障未被触发,则装置硬件系统的运行不会受到影响,只有隐性故障被触发后装置才会进入停运状态,据此定义了以下几个概率作为安全稳定控制装置硬件系统的可靠性指标:
1) 安全稳定控制装置硬件系统可用度。
2) 安全稳定控制装置硬件系统处于隐性故障状态的概率h。
(10)
3) 安全稳定控制装置硬件系统因隐性故障被触发发生停运的概率hs。
式中,ex和s分别为安全稳定控制装置硬件系统的隐性误动状态和拒动状态被触发的概率。
4.1 失效率算例
本文考虑SCS-500安全稳定控制装置在偶然失效期内的失效情况,根据产品失效特性的浴盆曲线[16]规律,此期间内各元器件的失效率可近似视为常数。以某SCS-500E安全稳定控制装置为例,结合各元器件的属性特征,利用文献[17]提供的基础数据计算元器件失效率,其中取元器件质量系数为0.25;生产工艺成熟系数为1;SCS-500E装置的环境类别为一般地面固定,取环境系数为2.5;SCS-500E装置正常运行温度范围为-5°C~40°C,本文选取最高正常运行温度=40°C。将计算得到的各元器件失效率代入式(1)计算得到各稳控模件的失效率如表1所示。
考虑各稳控模件的权重(见表2),将表1和表2中数据代入式(3)得到装置正常运行温度为40℃时该SCS-500E装置失效率=5.93×10-6/h=0.052/y。
表1 SCS-500E装置稳控模件失效率计算结果
表2 各模件的权重值
4.2 状态概率算例
安全稳定控制装置马尔可夫状态空间图中的各参数取值(除安全稳定控制装置硬件系统失效率外其余为结合实际情况所作的假设值)如表3所示,本算例中假设装置隐性故障的触发事件为线路故障,表3中的λ和λ为线路故障率。因为线路故障发生概率服从泊松分布且几乎是瞬间发生,所以可用线路故障率代替线路故障发生概率[18],即本文中以状态转移率λ和λ分别代替隐性拒动故障和隐性误动故障被触发的概率p和p。
表3 安全稳定控制装置马尔可夫状态空间图各参数
将表3的各参数代入式(4)—式(6),可得安全稳定控制装置由正常状态分别到隐性误动状态、隐性拒动状态和停运状态的状态转移率如表4所示。
表4 图3中部分状态转移率
将表3和表4数据代入式(7)可得安全稳定控制装置分别处于完全正常运行状态、隐性误动状态、隐性拒动状态和停运状态时的概率值如表5所示。
表5 安全稳定控制装置硬件系统处于各状态概率
结合表5的计算结果和式(9)—式(11)可计算得到安全稳定控制装置硬件系统的相关可靠性指标值,见表6。
表6 安全稳定控制装置硬件系统可靠性指标值
由表5知安全稳定控制装置处于停运状态的概率相当小,数量级仅为10-5,可见装置的可靠性很高。从表5和表6计算结果来看,安全稳定控制装置处于隐性故障状态的概率略高。实际上,装置处于隐性故障状态时若无外界的触发不会对装置的正常运行产生影响,装置处于隐性故障被触发导致装置停运须满足“装置处于隐性故障状态”和“有触发事件发生”两个条件,缺一不可,当这两个条件同时满足时,装置因隐性故障发生停运的概率已经非常小,从表6的计算结果也可看出。另外,实际运行中若装置没有发生拒动或误动事件即认为装置是正常运行的,而这时也有可能装置正处于隐性故障状态,只是没有被触发而已,所以实际中其实已经把一部分隐性故障状态的情况作为正常运行状态统计,因此安全稳定控制装置处于正常运行状态的概率应比统计值略低,表5中的计算结果是符合实际的,证明了本文评估安全稳定控制装置可靠性的方法的正确性。
安全稳定控制装置硬件系统组成相对复杂,目前的在线检测技术还不够完善,装置内易发生检测不到的故障,致使安全稳定控制装置可能成为电网运行的安全隐患。本文在充分分析了其组成成分内在的配合关系及各组成成分的权重后,建立了硬件系统的故障树模型和马尔可夫状态空间模型,由此得到安全稳定控制装置硬件系统处于完全正常运行、隐性误动、隐性拒动和停运4个不同运行状态时的概率,并以算例验证了方法的正确性。当装置处于隐性故障状态时只有同时满足触发条件才会诱发隐性故障,导致装置发生不正确动作,所以装置因隐性故障而停运的概率很小。分析表明安全稳定控制装置的可靠性很高,而且由本文方法可以得到装置处于隐性故障状态的概率,可为控制策略的选取提供参考。为进一步提高安全稳定控制装置的可靠性,未来应考虑影响装置运行的多方面因素(如装置的老化、运行温度及跳闸出口压板投退不当等),增加装置的隐性故障辨识和预警[19]。另一方面,安全稳定控制装置的不正确动作还源于不同区域安全稳定控制系统间的协调隐患,此隐患造成的后果影响范围较广,应对该方面进一步关注。
[1] 林伟芳, 孙华东, 汤涌, 等. 巴西“11·10”大停电事故分析及启示[J]. 电力系统自动化, 2010, 34(7): 1-5.
LIN Weifang, SUN Huadong, TANG Yong, et al. Analysis and lessons of the blackout in Brazil power grid on November 10, 2009[J]. Automation of Electric Power Systems, 2010, 34(7): 1-5.
[2] 何大愚. 对美国西部系统1996年两次大事故的后续认识(分层分析)[J]. 中国电力, 1998, 31(5): 37-40.
HE Dayu. The successive ponderation (layers-built analysis) over U.S. WSCC two outages in 1996[J]. Electric Power, 1998, 31(5): 37-40.
[3] 薛禹胜. 综合防御由偶然故障演化为电力灾难——北美“8·14”大停电的警示[J]. 电力系统自动化, 2003, 27(18): 1-5.
XUE Yusheng. The way from a simple contingency to system-wide disaster —— lessons from the Eastern interconnection blackout in 2003[J]. Automation of Electric Power Systems, 2003, 27(18): 1-5.
[4] 董希建, 李德胜, 李惠军, 等. 电网安全稳定控制装置线路故障跳闸判据的改进[J]. 电力系统保护与控制, 2014, 42(11): 73-78.
DONG Xijian, LI Desheng, LI Huijun, et al. Improvement of line fault trip criterion of power system security and stability control equipment[J]. Power System Protection and Control, 2014, 42(11): 73-78.
[5] 熊小伏, 陈星田, 郑昌圣, 等. 继电保护系统状态评价研究综述[J]. 电力系统保护与控制, 2014, 42(5): 51-58.
XIONG Xiaofu, CHEN Xingtian, ZHENG Changsheng, et al. Overview of research on state evaluation of relaying protection system[J]. Power System Protection and Control, 2014, 42(5): 51-58.
[6] 王同文, 谢民, 孙月琴, 等. 智能变电站继电保护可靠性分析[J]. 电力系统保护与控制, 2015, 43(6): 58-66.
WANG Tongwen, XIE Min, SUN Yueqin, et al. Analysis of reliability for relay protection systems in smart substation[J]. Power System Protection and Control, 2015, 43(6): 58-66.
[7] 吴立杰, 陈星莺, 徐石明, 等. 考虑电流保护可靠性的分布式电源准入容量研究[J]. 电网与清洁能源, 2015, 31(3): 35-39.
WU Lijie, CHEN Xingying, XU Shiming, et al. Calculating the maximum penetration capacity of distributed generation considering current protection[J]. Power System and Clean Energy, 2015, 31(3): 35-39.
[8] 崔杨柳, 马宏忠, 王涛云, 等. 基于故障树理论的GIS故障分析[J]. 高压电器, 2015, 51(7): 125-129.
CUI Yangliu, MA Hongzhong, WANG Taoyun, et al. Fault analysis of GIS based on fault tree theory[J]. High Voltage Apparatus, 2015, 51(7): 125-129.
[9] 赵丽莉, 李雪明, 倪明, 等. 继电保护与安全稳定控制系统隐性故障研究综述及展望[J]. 电力系统自动化, 2014, 38(22): 128-135.
ZHAO Lili, LI Xueming, NI Ming, et al. Review and prospect of research on hidden failures of protection system and security and stability control system[J]. Automation of Electric Power Systems, 2014, 38(22): 128-135.
[10]戴志辉. 继电保护可靠性及其风险评估研究[D]. 北京: 华北电力大学, 2012.
[11]陈少华, 马碧燕, 雷宇, 等. 综合定量计算继电保护系统可靠性[J]. 电力系统自动化, 2007, 31(15): 111-115.
CHEN Shaohua, MA Biyan, LEI Yu, et al. Integrative and quantitative calculation of reliability for relay protection system[J]. Automation of Electric Power Systems, 2007, 31(15): 111-115.
[12]王超, 高鹏, 徐政, 等. GO法在继电保护可靠性评估中的初步应用[J]. 电力系统自动化, 2007, 31(24): 52-56.
WANG Chao, GAO Peng, XU Zheng, et al. Application of GO methodology in reliability assessment of protective relays[J]. Automation of Electric Power Systems, 2007, 31(24): 52-56.
[13]霍超, 张沛超. 全数字化保护系统考虑经济性的元件重要度分析[J]. 电力系统自动化, 2007, 31(13): 57-62.
HUO Chao, ZHANG Peichao. An analysis of component importance considering the cost for all-digital protection systems[J]. Automation of Electric Power Systems, 2007, 31(13): 57-62.
[14]张增照, 潘勇. 电子产品可靠性预计[M]. 北京: 科学出版社, 2007.
[15] 程雅梦. 安全稳定控制装置(系统)隐性故障辨识与预警研究[D]. 南京: 国网电力科学研究院, 2014.
[16]杨明玉, 田浩, 姚万业. 基于继电保护隐性故障的电力系统连锁故障分析[J]. 电力系统保护与控制, 2010, 38(9): 1-5.
YANG Mingyu, TIAN Hao, YAO Wanye. Analysis of power system cascading failure based on hidden failures of protective relaying[J]. Power System Protection and Control, 2010, 38(9): 1-5.
[17]中国人民解放军总装备部. GJB/Z 299B-2006中华人民共和国国家军用标准电子设备可靠性预计手册[M]. 北京, 2006.
[18]李文沅. 电力系统风险评估模型、方法和应用[M]. 周家启, 译. 北京: 科学出版社, 2006.
[19]程雅梦. 安全稳定控制装置(系统)隐性故障辨识与预警研究[D]. 南京: 国网电力科学研究院, 2014.
(编辑 周金梅)
Analysis of hardware system’s reliability of security and stability control device
ZHAO Lili1, WANG Mengxun2, NI Ming1, LI Xueming1
(1. NARI Technology Co., Ltd., Nanjing 211106, China; 2. Jiangxi Electric Power Design Institute, Nanchang 330096, China)
The reliability of security and stability control device is important to the operation of electric power grid. Taking SCS-500E which is one kind of security and stability control device for example, the components and their logical relationship in the hardware system of the device are analyzed. Based on the analysis, the fault tree model and the Markov state space model are built by fault tree method and Markov state space methodology. The paper believes that the device has 4 operation states which are normal operation, hidden mal-operation, hidden anti-operation, and outage. The probabilities of the 4 operation states are got by fault tree model and the Markov state space model. Other reliability indexes of the hardware system of the device which are availability, hidden failure probability, and probability of outage caused by hidden failure are also delimited. It is proved that the results worked by the method proposed in the paper are matched with the actual facts and the method is correct.
security and stability control device; hardware system; hidden failure; fault tree; Markov
10.7667/PSPC151313
国家电网公司科技项目“考虑通信信息系统风险的电网安全稳定防御关键技术研究”
2015-07-29;
2015-10-21
赵丽莉(1988-),女,硕士,主要研究方向为电力系统安全稳定控制;E-mail: zhaolili@sgepri.sgcc.com.cn 王梦璕(1989-),女,学士,助理工程师,主要研究方向为变电站的安全稳定控制;倪 明(1969-),男,博士,博士生导师,主要研究方向为电力系统自动化及安全稳定控制。