王文清 刘才华
摘 要:在全球能源互联网背景下,安全稳定的电力系统是生产力发展的重要保障,而电力系统调度和信息数据是电网自动化的基础,数据的重要性不言而喻。电力数据网络系统的可靠性要求极高,我们如何才能保障并不断提高电力数据网的可靠性,本文详细阐述了数据网络五个层次可靠性的设计方法和技巧,同时从三个方面介绍了常用可靠性技术。
关键词:电力系统;数据网络;可靠性
电力数据通信网是综合性的广域网络传输平台,是电力系统内各种计算机应用系统实现互联的基础,是电力信息基础设施的重要组成部分。众所周知,安全稳定的电力系统是生产力发展的重要保障,而电力系统的调度和信息数据是电网自动化的基础,其数据的重要性不言而喻。电力数据网络系统的可靠性要求极高,达到电信级承载网的要求。随着电力市场化的进一步发展,采用自顶向下的网络系统设计方法,在各个层次中从不同方面选取适合的可靠性保障机制,并综合统一是电力数据网络建设的必然趋势。
1 数据网络可靠性
1.1 电力数据网络可靠性标准
可靠性较为公认的定义是元件、产品、系统在一定时间内、在一定条件下无故障地执行指定功能的能力或可能性。理论上衡量一套数据网络系统优良与否的指标主要包括功能指标和性能指标,性能指标包括可用性、可靠性、可维护性和安全性。在现实实现中,运营商在开展通信业务时,最关心的三个因素是网络的可靠性、网络的可用性和网络故障的处理能力,这三个因素都属于可靠性范畴。
电力系统是国家经济发展的推进器,其数据的重要性不言而喻。电力网络系统的可靠性不仅是技术指标,也是质量管理的一贯要求,其遵循了6σ的标准,网络设备的可用性要求达到99.999%,大致相当于设备在一年的连续运行中因各种可能原因造成停机维护的时间少于5分钟,显而易见超过了普通的民用网络,达到电信级承载网的要求。作为业务承载主体的基础网络,其可靠性也因此成为日益关注的焦点。
1.2 可靠性技术矩阵
按照设备级、节点级、链路级、网络级和网间级五个保障级别分别阐述。技术方面,分为备份保护技术、冗余保护技术和检测技术三个方面。其中备份保护技术定义为被动的保护技术,在平时系统处于正常状态时,将不起作用;冗余保护技术定义为主动的保护技术,不仅具备故障时的备份能力,在正常状态时还可进行负载分担等工作;故障检测技术则是为保护技术的启动服务的故障发现和报告技术。依此划分原则,形成可靠性技术矩阵(见表一)。
通常来说,冗余保护技术因为既包含保护功能,又具备负载均衡能力,比备份保护技术更为先进,但冗余保护有时会带来额外的投资,或某些技术仅限于某个厂家拥有,因此实际设计中是采用备份保护还是冗余保护,需要视情况而定。对于网络系统中的某些关键部分,采用备份保护往往简洁而有效。
2 层次化可靠性设计
要实现电信级IP运营,就必须在保证高带宽、低时延、低丢包率等服务质量的同时,解决IP承载网的可靠性问题。这涉及到从设备级可靠性保证,到局部网络级可靠性保证,再到全网级可靠性保证的每一个环节。
本章节将从设备、节点、链路、网络和网间五个从小到大,从局部到全局的层次顺序,对如何选用可靠性技术进行设计加以阐述。
2.1 设备的可靠性
网络设备是组成多业务IP承载网的基本节点,其可靠性是整网可靠性的基础,因此设备的可靠性成为整个系统可靠性的基础。
各网络设备的生产厂家对于设备可靠性的追求一直不遗余力,从最早的使用CPU作为运算器的设备设计,进化到如今主流的NP+ASIC搭配,采用数据转发平面、控制平面和系统管理平面的分立设计,路由引擎(Routing Engine)和管理引擎(Management Engine)相分离,分布式硬件线速转发技术,在提高数据设备性能的同时,也从根本上改进了设备板件级的可靠性。
在此基础上,主流网络设备的关键部件,包括主控单元、交换单元、电源、制冷系统等,都可采用热备份设计,这是保证电信级IP承载网可靠性的最基本要求。
在网络运营过程中,即使主控单元采用了冗余备份技术,在主控单元倒换期间,由于相邻的网络设备会中断原有的连接关系,导致数据包无法继续转发,从而引起业务中断。
于是出现了HA、GR和NSR等技术力图在主控单元倒换期间,继续维持邻居连接状态和报文转发,进而保持业务转发不中断。同时注意在业务板件进行冗余设计的同时,将上下联链路分配于不同的业务板卡上。
2.2 节点的可靠性
节点可靠性是设备可靠性的进一步发展。如何使节点失效几率更小,稳定性提高,主要的设计思路是采用双设备或设备组进行互备,以保证在其中一台或几台设备失去工作能力的情况下不至于导致此节点从整个网络系统中脱离。
VRRP和HSRP技术可用于将两台以上设备组成设备组并选举出一台设备作为主设备,利用其自带的检测机制,在检测到主设备故障的时候从容将备设备推至前台,代替主设备进行业务转发。而GLBP不仅可以支持备份,更能够提供负载分担,实现冗余功能。
但对于可靠性的要求是永远没有止境的,于是在数通设备上出现了虚拟化技术,二层设备可以使用堆叠(Stack)技术使若干台交换机作为一台来使用和管理,而思科则率先推出了VSS技术,众多安全设备厂家则多用设备间HA来进入这一层次。节点的可靠性设计中还可以考虑使用更加敏感的BFD和OAM等检测手段,配合VRRP等备份和冗余协议,进一步细化节点故障检测的粒度,使中断时间能够达到50ms级别。(下转第154页)(上接第152页)
对于设备组的上下行路由,均要进行相应的双归设计。
2.3 链路的可靠性
设计的目的在于保证节点间端到端的可靠数据传输。链路可靠性由两个层次决定,首先是通信信道的可靠性保障能力,其次是数据链路的可靠性设计。
通信信道的可靠性可以通过SDH/SONET或PON技术自带的保护倒换功能提供,这种保护虽然只能提供备份,但在故障的反应速度方面具有很大优势,因此现在的大多数数据中心内部组网方案也推崇使用POS口进行Full Mesh全连接的方式进行链路保障。
接口备份是比较早的用于数据链路可靠性保障的技术,但几乎已被之后出现的各种具有冗余能力的保障技术所淘汰。如PPP协议可以通过MP-GROUP和Virtual-Template两种方式创建MP,对于Ethernet,可以使用Aggregation进行聚合,使多条物理链路正常时能够全部在用。
同时聚合技术还可以用于三层链路。链路的检测一般使用BFD和Track等技术进行快速检测,有些厂家设备还支持NQA与Track等协议的联动,对链路出现的问题进行快速检测,提高链路可靠性。
2.4 网络的可靠性
网络的可靠性可理解为在网络局部出现停摆故障时整个网络的自愈能力。网络级可靠性的技术运用的非常成熟了,如较大的二层网络主要通过STP/PVST或RSTP等协议,在避免环路的同时也对网络进行备份保护。
而使用MSTP可以通过将不同VLAN的流量进行分别部署,可以达到冗余的目标。三层网络使用动态路由协议进行选路和备份,对于关键路径可人工部署FRR进行备份保护。
虽然TE目前只实现了部分功能,还无法实现RFC中设计的流量负载均衡的冗余级保护,但相信终有一天会有所突破,到时也会成为MPLS网络核心汇聚层实现高可靠性的另一利器。
另有一些有助于可靠性提升的技巧可以用在多AS网络的设计中,例如往往在AS或AREA边界使用路由策略来过滤和聚合路由,以在AS或AREA边界隔离路由震荡。在部署路由反射器(RR)的BGP域中,常常设置若干RR形成RR组进行反射器的备份。而在故障检测方面,除了各IGP自有的邻接关系保持机制外,FRR通常需要BFD、Track、OAM等检测手段才能有效且高效地工作。而SNMP实际也是一种检测手段,虽然目前无法与其它保护技术联动,但其Trap信息可将故障反映到网管上,方便网络管理员处理。
2.5 网间的可靠性
很少有网络能够运用到网间级的可靠性设计,除非那些超大型的网络且有非常高的可靠性要求。网间的可靠性是立于网络级可靠性之上,更进一步的要求。
这种要求的设计实现很难通过某些具体技术能够实现,而是要从整个网络的结构设计来考虑,通过AS间的结构和业务流向的设计,在下向层次通过各种保护技术取得的可靠性基础之上获得更高层次的保障。
网间可靠性设计的总体思路是通过将各AS分级,形成不同作用级别的AS,利用AS对AS进行备份保护。在某些关键层次,还可以建设双平面AS,力图达到网间冗余。
3 结论
随着“全球能源互联网”构想成为提升为国家战略,信息技术的支撑作用越发重要,其中数据网络作为关键基础设施,其可靠性要求将会越来越高。
近年来业内提出了很多新的可靠性技术,但都未脱离以上可靠性层次框架。电力信息化从业人员宜首先掌握可靠性的层次化设计思路,分析网络层级和业务需求,在投入有限的情况下,优先考虑增加层次,避免在同一层次中堆砌多项技术而忽视了其它层次,提高资金利用率,获得更好的可靠性收益。
参考文献:
[1] 刘冬.IP承载的可靠性准则.华为技术,2007,1.
[2] 钱君霞,沈泓,霍雪松.江苏电网110、35kV变电站电力调度数据网络的建设与实施.中国电力,2008.10.
[3] 高雪生,陈冰.如何提高电力调度数据网承载业务可靠性.中国信息化(学术版),2013,06.
作者简介:
王文清(1984-),女,本科,主要从事科研及管理工作,安徽继远软件有限公司;刘才华(1983-),男,本科,主要从事信息通信技术研究和管理工作,安徽继远软件有限公司。