陈凤超
(广东电网公司东莞供电局,广东 东莞 523008)
数据采集与监视控制系统SCADA(Supervisory Control and Data Acquisition)在电力、交通、水利和化工等方面都有广泛的应用。其中SCADA系统中一些主要服务器(如调度侧SCADA服务器和前置服务器)的配置都是双机并列运行的冗余结构[1-3]。本文通过增加关键服务器的冷备机,实现冷-热备混合配置系统,减少每次停机造成关键服务器单机运行的时间。
首先简单介绍备用机的概念。备用机是指系统运转过程中为防止因某台关键或易损设备的故障而造成整个系统瘫痪,专门用于替换故障设备的机器。
备用机可分为“热备”和“冷备”[4]。热备是指与目标设备共同运转,当目标设备发生故障或停机时,热备机立即承担起故障设备的工作任务;冷备是指当目标设备发生故障或停机后,冷备机才开始由停机等待状态进入启动运转状态并承担起故障设备的工作任务。
当前,不少系统为了保证数据的可靠性和运行的稳定性,需要考虑冗余与容错方案而配置双机热备[5-6]或者双机冷备[7-8]的运行结构。
下面以电力系统中使用比较广泛的OPEN2000系统[9]的运行情况为例进行分析。OPEN2000自动化主站系统的双机热备结构如图1所示。
其中,服务器1为主服务器,服务器2是备用服务器。系统大部分的应用和服务都在服务器1上。在正常情况下,服务器2处于热备用状态,只负责定时进行数据更新,使其与系统实时数据保持一致。当服务器1退出运行时,服务器2立刻接管所有的应用和服务。直到服务器1恢复运行,才把所有应用和服务切换回原机,服务器2恢复热备用状态。
图1 自动化主站系统的双机结构
这种双机热备用的结构保证了系统的安全运行,但在某些特定情况下,依然存在隐患。例如,某些投运时间较长的系统随着设备的老化以及电网的不断发展,服务器发生故障或者进行升级的频率越来越高;当一台服务器退出运行时,另一台服务器不能正常切换或运行的可能性不断增大。尽管可采取独立运行备份方式等措施提高双机切换效率,但仍然不能从根本上解决双机全停的风险[10]。此外,把监控系统的功能分散到各个节点也可以提高系统的可靠性[11],但此策略对于现有的OPEN2000系统网络结构实现系统的可靠性则不现实。因此,如果不采取必要的措施,系统运行的风险必然越来越大。
东莞调度自动化主站系统由调度自动化子系统(简称调度侧或EMS侧)、集控自动化子系统(简称集控侧)、安全II区DTS子系统、安全III区WEB子系统组成。
系统所有服务器和工作站均为SUN系列小型机。到了后期,调度系统和集控系统都进行过扩容,现调度系统和集控系统分别有35个节点。其中主要节点如下:
(1)2台调度侧 SCADA服务器(dg01-1,dg 02-1)主要负责调度侧的SCADA功能;
(2)2台前置服务器(dgjk03-1,dgjk04-1)主要负责集控侧的SCADA功能;
(3)2台历史数据服务器(dgdb01-1,dgdb 02-1)运行在调度侧,外挂磁盘阵列;
(4)2台集控SCADA服务器(dgjk01-1,dgjk 02-1)负责数据下发等;
(5)系统的模型维护由调度侧完成并自动同步到集控侧和WEB侧(WEB侧2台服务器为dg 06-1,dg16-1),集控侧和WEB侧不能进行模型维护;
(6)1台PAS服务器(dg05-1)负责高级应用。
调度侧SCADA服务器(dg01-1,dg02-1)和前置服务器(dgjk03-1,dgjk04-1)是系统的关键节点,应用较多且容易发生故障。历史数据服务器(dgdb01-1,dgdb02-1)、集控 SCADA 服务器(dgjk01-1,dgjk02-1)也承担着比较重要的功能。只有WEB服务器(dg06-1,dg16-1)和PAS服务器(dg05-1)的重要性相对较低。
系统中除PAS服务器以外,其他服务器都是双机结构。其中2类关键节点(即调度侧SCADA服务器和前置服务器)在2012年上半年的运行情况见表1。
可见,2012年上半年关键服务器每次停机造成关键服务器单机运行时间可达8.76 h,使系统长时间暴露在高风险运行中。
为降低系统运行风险,可以增加设备冗余度。为每台服务器都配置备用机或者直接配置三网系统的成本比较高,网络改造工作量也较大。在考虑成本与需求的基础上,可搭建一个冷-热备混合配置系统。
该改进系统是在原来双机热备的结构下,增加关键服务器的冷备机。此外,为进一步控制成本,可充分利用系统中重要性相对较低的服务器(即dg05-1,dg06-1和dg16-1)作为冷备机。但在OPEN-2000系统中,dg06-1和dg16-1工作在III区,与I区之间存在物理隔离装置,因此,不能随意改造作为I区关键服务器的冷备机。综合考虑各方面因素后,得到以下改造方案:
(1)dg01-1故障时使用dg05-1更改配置作为其替代机器,平时dg05-1作为PAS服务器功能不受影响。
(2)dg02-1故障时使用dg05-1更改配置作为其替代机器,平时dg05-1作为PAS服务器功能不受影响。
(3)dgjk03-1故障时使用新增机器(dg15-1)更改配置作为其替代机器。
(4)dgjk04-1故障时使用新增机器(dg15-1)更改配置作为其替代机器。
以上方案实际上只新增dg15-1 1台服务器,成本得到有效控制,同时实现了系统的冷-热备混合配置。
冷备机的配置一般按照以下步骤实施:(1)中断备用服务器网络(dg05-1);(2)更改备用服务器网络配置,重启备用服务器;
(3)中断故障服务器网络;
(4)接上备用服务器网络并启动应用;
(5)检查备用服务器和系统各功能的运行状态。
对于步骤(1)来说,因为dg05-1原本是作为PAS服务器处于运行状态,所以,需要先将其从网络中退出,再进行配置。而dg15-1则可省略此步骤。
对于步骤(2)来说,一般需要先把冷备机的相关文件进行备份,再配置其用户ID、应用和网络设置等,使其与故障服务器的配置保持一致,才能保证网络功能不变。
当故障服务器恢复正常时,可按相同步骤接回到系统中,这里不再赘述。
表1 2012年上半年关键服务器运行情况
从以上步骤可以看出,改进后每次停机造成的单机运行时间就由替换和恢复过程中的步骤(4)决定,该时间通常只有不到30 min,大大低于故障服务器的停机时间。
表2是配置冷备机后,2012-08—11月关键服务器的停机时间和单机运行时间的情况。表中停机时间实际上就相当于改进前的系统单机运行时间。统计得到每次停机造成系统的平均单机运行时间从12.63 h下降到22.42 min。系统的运行风险得到有效的控制。
表2 2012-08—11月关键服务器运行情况
本文提出的为调度自动化系统增加冷备机的方案,实现了系统的冷-热备混合配置。既能较好地控制网络改造成本,又能有效减少关键服务器单机运行时间。对于类似的网络系统,特别是设备存在老化或者不稳定现象的系统,此方案可以降低系统运行风险,提高稳定性。
[1]谈苏伟.中国南方电网调度自动化实时通信的现状分析和研究[J].电力系统保护与控制,2010,38(22):109-114.
[2]TURC T,MORAR A.Redundancy Based Secure SCADA Architecture for Gas Plant[J].Acta Electrotehnica,2010,51(4):261-265.
[3]赵家庆,严胜,肖翔,等.双核冗余的电网调度自动化系统设计与应用[J].电力系统自动化,2009,33(21):101-103.
[4]陆阳,王强,张本宏,等.计算机系统容错技术研究[J].计算机工程,2010,36(13):230 -235.
[5]汤震宇,孙伯龙,刘鎏.厂站远动装置面向端口的冗余策略研究[J].电力系统保护与控制,2011,39(16):132-134.
[6]翟明玉,高原,杨志宏.调度自动化系统双网卡热备冗余机制的设计与实现[J].电力系统自动化,2012,36(8):87-91.
[7]MAHMOUD M A W,MOSHREF M E.On a Two-unit Cold Standby System Considering Hardware,Human Error Failures and Preventive Maintenance[J].Mathematical and Computer Modelling,2010,51(5):736 -745.
[8]DE SMIDT - DESTOMBES K S,VAN ELST N P,ISABEL BARROS A,et al.A Spare Parts Model with Cold - standby Redundancy on System Level[J].Computers & Operations Research,2011,38(7):985 -991.
[9]练刚.OPEN-2000能量管理系统的网络结构及通信模式[J].中国电力教育,2008(S1):324-325.
[10]熊友生,刘志敏.服务器双机热备的问题与备份策略调整[J].医疗设备信息,2004,19(11):24 -25.
[11]陈丹瑜,陈国飞,笃峻.对监控系统冗余配置模式的改进[J].电力系统保护与控制,2009,37(12):124 -128.