摘 要 对于一个实时数据处理系统而言,具有一个稳定、可靠的网络系统是其首要的基础性前提。本文在设备级可靠性、链路层保护、网络层保护三方面,分别采用双主控主备机制、Trunk链路聚合技术、BFD双向转发检测等技术对网络可靠性进行了分析与设计,并对关键节点进行了实际测试,各项指标均能够满足实时数据处理系统要求。
【关键词】网络可靠性 设备级可靠性 链路层保护 网络层保护
1 引言
实时数据处理系统作为一个大系统的数据中心,通常要与外部进行大量的信息汇集分发,在内部进行信息处理与交换等业务,信息被准确快速的传递就需要一个高稳定、高可靠的网络系作为其有效支撑,否则实时数据处理系统将无法发挥其应有的作用。
影响网络系统可靠性的主要因素包括:硬件设备、链路、供电、网络设计等,网络出现故障后,将导致系统无法对外提供正常服务。对于这些故障的一般解决方式就是简单的冗余设计,通过对设备、链路、供电等提供备份。但是冗余设计只是整个网络可靠性设计的一个方面,单纯的进行冗余备份反而会降低可用性,从而减小冗余所带来的优点,因为单纯的冗余备份也会引入一些缺点:
(1)提高网络复杂度;
(2)加重网络负担;
(3)增加配置和管理的复杂度。
网络的高可靠设计是在提高网络的冗余性的同时,还需要加强网络构架的优化,从而实现真正的高可用。本文针对工程实际使用案例,对所需的网络系统进行了分析与设计,并对关键节点进行了实际测试,结果表明,该网路系统设计合理、可靠性较高,能够满足实际使用需求。
2 设备级可靠性设计
通过热备技术、灵活配置恢复以及关键部件冗余使设备级可靠性增强,将设备故障对系统整体的冲击减到最小。对系统中处于核心部位的设备采用以下三方面的可靠性技术:
2.1 主控板热备
核心交换机均配置两块控制板,本别称为主用控制板和备用控制板。其中,主用控制板对外完成系统的工作,进行对外通信;备用控制板作为主用控制板的备份,处于热备状态,但不对外进行通信。当主用控制板故障时,系统进行自动切换,由备用控制板作为主用控制板进行对外通信。
2.2 灵活配置恢复
核心设备具备板卡、磁盘等部件的热插拔能力,能在不关闭系统、不切断电源的情况下,实现对故障部件的热添加和热替换。使得故障部件在更换或重启业务后,用户配置能够自动恢复,在尽可能短的时间内恢复正常业务,提高设备可靠性、扩展性和灵活性。
2.3 设备关键部件冗余
对设备关键部件进行冗余配置,当系统发生故障时,冗余配置的部件接替故障部件的工作,保证设备正常运行。供电系统采用双电源冗余配置,两个电源工作时实现负载均衡,当一个电源出现故障时,另一个电源就承担所有的负载。散热系统采用双风扇冗余配置,并且提供自动调速功能。存储系统采用磁盘阵列实现数据备份存储能力。
3 链路层保护
对核心层交换机、接入层交换机、服务器、重要终端全采用双归属连接,实现全网的冗余备份负载均衡,保障系统的高效性和高可靠性。
3.1 双网卡绑定
对于系统中运行的核心服务器而言,即使网络可靠性程度很高,但如果服务器采用一条线路接入,网络依然会出现单点故障。解决方法是在服务器上安装双网卡。
对双网卡进行绑定,虚拟成一块网卡,使用一个IP地址,使用起来就像是一个网卡。数据在其中一条链路上进行传输,当使用的链路故障时,会自动切换到另一条链路上继续工作。经实际测试,系统网卡备份容错技术故障切换时间约400ms。
3.2 链路聚合
Trunk链路聚合也称捆绑技术,链路聚合后,就是把两台设备间的多条链路看成一个整体的一条链路,提高了链路带宽,理论上其最大带宽等于各成员带宽之和。聚合的链路间是会自动进行负载均衡,提高了链路的可用性,如果其中一条链路断掉,那么它的流量会自动分担到其它剩余的链路上,起到了链路备份的作用。
系统核心交换机与核心交换机之间、核心交换机与汇聚交换机间、汇聚交换机与汇聚交换机间部署业务板内、业务板间Trunk聚合技术,提供单播业务的负载均衡,组播业务的500ms以內的备份容错保护能力。
3.3 链路快速切换
Smart Link技术实现了主备链路的冗余备份。主备链路拥有两个端口,一般情况下,主链路端口处于工作状态,备链路端口被阻塞,处于待命状态。当主链路端口故障时,备链路端口切换为工作状态,进行业务转发,实现了设备的双归属连接及快速切换。
组网的接入交换机通过Smart Link技术接入汇聚交换机,同时在汇聚交换机部署Monitor Link技术提供对上行链路的监控功能,避免了由于无法及时感知上行链路故障而引起的业务中断。
4 网络层保护
4.1 BFD双向转发检测
BFD(Bidirectional Forwarding Detection,双向转发检测)是一个用于检测两个转发点之间故障的网络协议,可以实现链路的快速检测,监控网络中路由的转发连通情况。BFD依靠上层协议在两个节点之间的每条链路上都建立一个会话,并在链路上进行会话检测,如果发现链路故障就拆除BFD邻居,并立刻通知上层协议。建立会话时,两个节点至少有一方要运行在主动模式下,即建立BFD会话前不管是否收到对端发来的BFD控制报文,都会主动发送BFD控制报文。会话建立后如果在检测时间内没有收到对端的BFD控制报文则认为发生故障。
通过部署BFD技术,OSPF[9]路由收敛、VRRP状态切换、PIM DR切换时间可以减少到50ms以内,大大提高了网络整体容错性、可用性。
4.2 VRRP
VRRP(Virtual Router Redundancy Protocol,虚拟路由冗余协议)是一种容错协议,可将多个路由器组织在一起,形成由主路由和备份路由组成的路由器组,成为一个虚拟路由器,这个虚拟路由器拥有一个虚拟的IP地址,网络上的设备通过这个虚拟的地址即可实现对外通信,而不需要知道主路由器及备份路由器的真实地址,实现在主路由故障时,由备份路由来及时代替工作,实现通信不间断。
VRRP能够通过检测报文来监控主路由的工作状态,但不具备监控主路由上行链路的能力,会导致主设备运转正常,但由于链路中断无法提供对外业务的情况发生。在此基础上实现对上行链路的监控,可进一步提高系统的可靠性。
在网络核心交换机、汇聚交换机、汇集分发交换机部署基于VRRP技术的双机热备系统,并加入VRRP自动侦测、直接监控三层接口状态、与BFD状态绑定三种监控上行链路的方式,避免上述情况的发生。当主交换机故障后,备份交换机能在150ms以内自动切换为主交换机继续保证网络通信系统整体可用性。
4.3 路由快速收敛
4.3.1 OSPF路由快速收敛
对于IGP路由,收敛速度是衡量其优劣的一个重要指标。对于OSPF,缩短hello报文时间间隔可以有效加快故障检测速度;缩短hello报文时间间隔也可以提高邻居关系的建立。
OSPF默认40多秒的收敛时间不能满足系统高可用要求。OSPF路由快速收敛技术就是将BFD状态和OSPF协议相关联,OSPF调用BFD对链路故障状态的快速感应信息,加快OSPF协议对于网络拓扑变化的响应。如表1所示。
4.3.2 OSPF路由平滑重啟
OSPF 平滑重启(GR)技术是一种在协议重启时保证转发业务不中断的机制。如果不使用平滑重启技术,当重启协议时,路由器需要断开与邻居的关系,等OSPF 进程重新启动后,再与邻居重新建立关系,重新计算路由。在这段时间内,转发业务是中断的。使用平滑重启技术,在重启协议时,会告诉邻居不要断开与自己的关系并保持稳定,协议重启完毕后,在尽量短的时间内使该设备恢复到重启前的状态,整个系统可以不间断地转发数据。
系统在所有交换机上部署OSPF平滑重启(GR)技术,实现在主备引擎切换、维护、设备升级时的业务不中断。
5 结论
影响网络系统可靠性的因素很多,提高网络系统可靠性的方法和技术手段也不尽相同。本文设计的网络系统,在设备级通过关键部件冗余设计;链路层采用双归属连接,实现全网的冗余备份负载均衡;网络层采用BFD双向转发检测、VRRP虚拟路由冗余备份等技术,对全网可靠性进行综合分析设计,测试结果能够达到实时数据处理系统要求。
参考文献
[1]尹栋,慕德俊,戴冠中.一种以服务器为通信节点的数据中心网络设计[J].计算机科学,2012,39(03):110-112.
[2]丁健,赵金龙,荆晓娟,宋伟.数据中心高可用性网络设计[J].信息技术,2013,2:148-150.
[3]邓罡,龚正虎,王宏.现代数据中心网络特征研究[J].计算机研究与发展,2014,51(02):395-407.
[4]朱桂明,谢向辉,郭得科,陆菲菲,陶志荣.一种高吞吐量、高可扩展数据中心网络结构[J].软件学报,2014,25(06):1339-1351.
[5]黄宁,伍志韬.网络可靠性评估模型与算法综述[J].系统工程与电子技术,2013,35(12):2651-2659.
[6]数据中心解决方案高可用技术白皮书. www.knowsky.com,2010.
[7]王琛,贾山刚,高三红.冗余链路技术在测控计算机系统中的应用[J].飞行器测控学报,2011,30(02):55-58.
[8]洪嘉捷.数据中心中高可用性技术的应用[J].通讯世界,2015,2:1-3.
[9]黄小芳,刘敬彪,鄢能.BFD技术实现分层VPLS系统[J].计算机系统应用,2009,2:143-145.
[10]王二平.供电分公司双核心网络改造的研究与设计[J].山西电力,2008,149(05):50-52.
作者简介
李鹏(1977-),男,硕士研究生,工程师。研究方向为测控技术。
作者单位
92941部队 辽宁省葫芦岛市 125000