基于链路生命期的光数据中心网络业务恢复方案

2018-09-12 03:06鲍宁海袁园刘自谦匡明
通信学报 2018年8期
关键词:损失率路由灾难

鲍宁海,袁园,刘自谦,匡明



基于链路生命期的光数据中心网络业务恢复方案

鲍宁海,袁园,刘自谦,匡明

(重庆邮电大学通信与信息工程学院,重庆 400065)

针对大规模灾难事件对光数据中心网络造成的关联性和级联性故障,提出一种基于链路生命期的灾后业务恢复方案。该方案利用全局业务带宽退让和局部链路的有限生命期,缓解灾后网络的带宽资源危机,根据灾难损毁业务的带宽需求和持续时间需求,确定业务恢复优先级,采用任播与多播相结合的路由策略提高业务的连通性和带宽资源利用率。仿真结果表明,所提方案能够最大限度地降低业务中断率,并有效地延长灾难损毁业务的持续时间,减少数据流量损失。

光数据中心网络;链路生命期;网络生存性;业务恢复;业务持续时间

1 引言

数据中心(DC, data center)是一种具有大规模并行计算能力和海量数据存储能力的超级资源中心。将多个地理上分散的数据中心通过大容量、低时延、稳定可靠的波分复用(WDM, wavelength division multiplexing)光网络组织起来,构建成高速互联的光数据中心网络,能够更加高效灵活地为用户提供各类基于内容的云业务[1-4]。在光数据中心网络中,服务的内容可以在多个位于不同地理位置的数据中心保存副本,持有副本的任何一个或多个数据中心都可以同时为用户提供相同的服务,这使基于任播和多播的内容交付技术在光数据中心网络中成为主流[5]。

近年来,大规模灾难事件对广泛分布的电信基础设施造成了严重的威胁和破坏。例如,2008年发生的汶川地震、2011年发生的日本东部地震和海啸以及2012年分别登陆美国南部的飓风艾萨克和东北部的飓风桑迪等都对当地的通信网及电力设施造成了巨大的破坏和长时间的影响[6-8]。因此,应对大规模灾难损毁的网络生存性将成为影响光数据中心网络发展的重要问题[9-10]。

根据光数据中心网络业务的特点,本文研究并提出一种基于链路生命期的光数据中心网络业务恢复方案,以解决大规模灾难情况下,数据中心业务大量中断、业务持续时间下降以及数据交付率低的问题。大规模灾难引发的区域性网络组件损毁(关联性故障)和部分链路生命期下降(级联性故障)将造成严重的网络带宽资源危机。针对这一现象,该方案利用全局业务带宽退让和局部链路的有限生命期,为恢复操作提供必要的带宽资源保障;根据灾损业务的带宽需求和持续时间需求确定业务恢复顺序,为恢复操作提供合理的资源调度依据;采用任播与多播相结合的路由策略,提高恢复操作的灵活性和带宽资源的利用率。研究结果表明,本文提出的方案能够显著地降低灾后网络的业务中断率,并有效地延长灾损业务的持续时间,减少数据交付损失率。

2 相关工作

目前,光数据中心网络的生存性问题已经受到各国研究人员的广泛关注,特别是在大规模灾难抗毁问题上已取得了一些研究成果。

针对大规模灾难可能造成的数据中心损毁和业务内容丢失的问题,文献[11]提出一种灾难风险敏感的数据中心选址和动态内容管理方案,以降低数据中心在灾难事件中的损毁概率,并最大限度地提高业务内容的可用性与可达性;文献[12]提出一种快速协同数据备份算法,使备份数据吞吐量最大化,从而有效地缩短备份时间窗口。

在大规模灾难预警模型下,文献[13]提出一种针对高危数据中心的快速数据撤离算法,以实现最短时间内最大量的数据撤离;文献[14]研究基于最小存储代价和传输代价的数据紧急备份方案,在有限预警时间约束下,通过最优站点选择和站点间多通路传输的方式,实现数据的最小代价紧急备份。

文献[15]研究一种数据中心网络的内容与路由保护方案,采用冗余副本安置和任播路由策略,实现业务通路和终端(内容)节点的抗毁。文献[16]提出一种灾难风险敏感的数据中心业务配置方案,采用多播路由策略对内容站点和业务带宽进行分散配置,以降低数据中心业务的灾难风险并提高带宽资源利用率。文献[17]针对弹性光数据中心网络的灾难模型,提出一种基于内容连通性的带宽自适应业务保护算法,采用共享风险链路组分离的保护路由策略保障业务内容的连通性,并通过带宽频谱的自适应配置,提高频谱资源利用率。

3 问题描述及示例分析

3.1 问题描述

大规模灾难事件(如地震、海啸、飓风等)可能造成涉灾地区大面积的网络组件损毁,而一些未遭受直接损毁的网络组件也可能因电网中断后,备用的电池、燃油耗尽而停止工作,从而使大量的数据中心业务中断或服务时间下降。为了在灾后及时有效地恢复受损业务,本文研究并提出一种基于链路生命期的业务恢复方案。

3.2 示例分析

本节针对所提出的基于链路生命期的恢复(LR, link-lifetime-based restoration)方案和另外2种对比恢复方案进行示例分析。对比方案分别为尽力而为的恢复(BR, best-effort restoration)方案和基于完全可靠性的恢复(FR, full-reliability-based restoration)方案,前者在恢复过程中不区分链路生命期是否有限,后者在业务恢复过程中不使用生命期有限的链路。图1给出业务的初始配置和3种恢复方案配置示例,其中带箭头的实线表示业务的原始配置,带箭头的虚线表示恢复操作后发生变化的业务配置。

图1 恢复方案示例

表1 原始业务配置

表2 LR相关业务配置

表3 BR相关业务配置

FR方案路由如图1(d)所示。首先将所有受影响业务的带宽全部释放,并将图中生命期下降的链路删除,然后为每一个受影响的业务寻找一条资源代价最小的业务通路,并分配带宽资源,如果该通路不满足业务带宽需求,则继续寻找下一条通路以补充带宽需求。FR恢复操作完成后配置发生变化的业务如表4所示。

表4 FR相关业务配置

通过对表1~表4的数据分析可以发现,对于LR、BR和FR这3种恢复方案,其业务中断率分别为0、0和20%,业务持续时间损失率分别为0、32%和32%,业务流量损失率分别为5%、31%和41%。其中,流量定义为带宽与时间的乘积。显然,LR通过合理利用具有有限生命期的链路资源,可以有效缓解灾后网络资源紧张的情况,并在一定程度上改善受影响业务的服务质量。

4 方案描述

表5 符号定义

4.1 路由策略

LR方案假设同一业务的内容和副本可以安置于多个数据中心站点,业务请求节点可以向网络中任意一个或多个持有相关内容或副本的数据中心发起业务连接请求,因此,LR将根据业务请求节点与内容提供节点间的可连通性与路由资源情况,采用任播与多播相结合的路由策略,保证内容的连通性和带宽的可扩展性。同时,为了最大限度地满足业务带宽需求,根据网络资源情况,同一业务请求节点与同一内容提供节点间的路由可采用单通路或多通路配置方式。

4.2 算法步骤

5 仿真与分析

图2 网络拓扑

采用静态业务模型,随机产生200个业务请求,均匀分布于所有非数据中心节点,每个业务的带宽在4~12个波长之间随机产生,每个业务的服务时间在1~12 h之间随机产生,通过此方式产生30套业务。此外,再将该30套业务的服务时间范围扩展为1~24 h、1~36 h和1~48 h,由此共获得120套业务。

图3 LR方案业务中断率

图4 LR方案业务持续时间损失率

图5 LR方案业务流量损失率

3种方案的业务中继率如图6所示。由图6可知,与BR和FR相比,LR在性能上具有明显的优势,这是因为LR临时将未受影响业务的带宽释放了50%,极大缓解了灾后网络带宽资源紧张的问题,保证了灾后所有业务的连通性。由于FR方案禁止使用生命期有限的链路,使灾后网络的可用带宽资源更加稀少,导致高达8.4%,而BR方案由于对链路的生命期不敏感,恢复过程中的可用带宽资源较多,使较低,约为2%。此外,图6中的数据显示,3种恢复方案的性能主要取决于网络中的可用带宽资源,这是因为反映的是恢复操作完成瞬间的业务连通性,而与业务的需求时间长短没有关系。

图6 3种方案的业务中断率

3种方案的业务持续时间损失率如图7所示。其中,LR方案展现出了最佳的性能。随着业务平均需求时间的增大,LR与BR的逐渐上升,且上升趋势逐渐趋缓,与此同时,LR相对于BR的性能优势却在逐渐扩大。这说明LR能够针对不同业务的服务时间需求,合理安排链路资源,充分利用链路的有限生命期。由于FR放弃了对有限生命期链路的利用,导致大量业务因缺乏带宽资源而中断,其较高的指标直接取决于,而与业务需求时间无关。

图7 3种方案的业务持续时间损失率

由于采用任播与多播相结合的路由策略,恢复后的业务可能会同时拥有多条连接不同数据中心的通路,而这些通路的带宽和生命期可能各不相同,因此本文采用业务流量损失率评估3种恢复方案的资源利用率性能,如图8所示。由图8可知,LR的性能最优,且随着业务平均需求时间的增大,LR与BR的指标变化趋势与图7中指标变化趋势一致,即业务平均需求时间越大,LR的性能优势越显著。而FR的性能依旧取决于其指标,且与业务需求时间无关。

图8 3种方案的业务流量损失率

6 结束语

分布广泛的光数据中心网络正面临着大规模灾难的严重威胁,灾难造成的关联性故障和级联性故障可能会使大量基于数据中心的云业务中断或数据丢失,网络生存性问题将成为影响光数据中心网络未来发展的一个重要问题。为了有效解决灾难带来的业务中断和服务时间下降的问题,本文提出一种基于链路生命期的业务恢复方案。该方案针对灾后网络中的带宽资源危机,利用全局业务带宽临时退让和部分链路的有限生命期增加网络中的可用带宽资源;根据灾损业务的带宽和持续时间需求,调度资源配置优先级;采用任播与多播相结合的路由策略,优化带宽资源利用率。仿真结果显示,本文所提方案能够最大限度地降低业务中断率,并显著减少业务的持续时间损失率和流量损失率。

[1] BILAL K, MALIK S U R, KHAN S U, et al. Trends and challenges in cloud datacenters[J]. IEEE Cloud Computing, 2014, 1(1): 10-20.

[2] ZHAO X, VUSIRIKALA V, KOLEY B, et al. The prospect of inter-data-center optical networks[J]. IEEE Communications Magazine, 2013, 51(9): 32-38.

[3] KACHRIS C, KANONAKIS K, TOMKOS I. Optical interconnection networks in data centers: recent trends and future challenges[J]. IEEE Communications Magazine, 2013, 51(9): 39-45.

[4] 罗军舟, 金嘉晖, 宋爱波, 等. 云计算: 体系架构与关键技术[J]. 通信学报, 2011, 32(7): 3-21.

LUO J Z, JIN J H, SONG A B, et al. Cloud computing: architecture and key technologies[J]. Journal on Communications, 2011, 32(7): 3-21.

[5] MUHAMMAD A, SKORIN-KAPOV N, FURDEK M. Manycast, anycast, and replica placement in optical inter-datacenter networks[J]. Journal of Optical Communications & Networking, 2017, 9(12): 1161-1171.

[6] RAN Y. Considerations and suggestions on improvement of communication network disaster countermeasures after the Wenchuan earthquake[J]. IEEE Communications Magazine, 2011, 49(1): 44-47.

[7] KOBAYASHI M. Experience of infrastructure damage caused by the Great East Japan Earthquake and countermeasures against future disasters[J]. IEEE Communications Magazine, 2014, 52(3): 23-29.

[8] KWASINSKI A. Effects of hurricanes Isaac and Sandy on data and communications power infrastructure[C]//Telecommunications Energy Conference ‘Smart Power and Efficiency’ (INTELEC. 2013: 1-6.

[9] HABIB M F, TORNATORE M, DIKBIYIK F, et al. Disaster survivability in optical communication networks[J]. Elsevier, Computer Communications, 2013, 36(6): 630-644.

[10] MUKHERJEE B, HABIB M F, DIKBIYIK F. Network adaptability from disaster disruptions and cascading failures[J]. IEEE Communications Magazine, 2014, 52(5): 230-238.

[11] FERDOUSI S, DIKBIYIK F, HABIB M F, et al. Disaster-aware datacenter placement and dynamic content management in cloud networks[J]. Journal of Optical Communications & Networking, 2015, 7(7): 681-694.

[12] YAO J, LU P, GONG L, et al. On fast and coordinated data backup in geo-distributed optical inter-datacenter networks[J]. Journal of Lightwave Technology, 2015, 33(14): 3005-3015.

[13] FERDOUSI S, TORNATORE M, HABIB M F, et al. Rapid data evacuation for large-scale disasters in optical cloud networks[J]. Journal of Optical Communications and Networking, 2015, 7(12): 163-172.

[14] MA L, SU W, WU B, et al. ε-time early warning data backup in disaster-aware optical inter-connected data center networks[J]. Journal of Optical Communications& Networking, 2017, 9(6):536-545.

[15] HABIB M F, TORNATORE M, LEENHEER M D, et al. Design of disaster-resilient optical datacenter networks[J]. Journal of Lightwave Technology, 2012, 30(16):2563-2573.

[16] SAVAS S S, DIKBIYIK F, HABIB M F, et al. Disaster-aware service provisioning with manycasting in cloud networks[J]. Photonic Network Communications, 2014, 28(2):123-134.

[17] MA C, ZHANG J, ZHAO Y L, et al. Bandwidth-adaptability protection with content connectivity against disaster in elastic optical datacenter networks[J]. Photonic Network Communications, 2015, 30(2):309-320.

[18] TORNATORE M, BARUFFALDI A, ZHU H, et al. Holding-time-aware dynamic traffic grooming[J]. IEEE Journal on Selected Areas in Communications, 2008, 26(3):28-35.

[19] XU Z, HUANG J, ZHOU Z, et al. A novel grooming algorithm with the adaptive weight and load balancing for dynamic holding-time- aware traffic in optical networks[J]. Optical Fiber Technology, 2013, 19(5): 392-399.

Link-lifetime-based service restoration in optical datacenter network

BAO Ninghai, YUAN Yuan, LIU Ziqian, KUANG Ming

School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

Aiming at the correlated and cascading failures caused by large-scale disasters, a post-disaster service restoration scheme was proposed. This scheme utilized global service bandwidth concession and the limited lifetime of local links to mitigate resource crunch in the post-disaster network. According to their bandwidth and holding time requirements, the impacted services for restoration was prioritized firstly, then jointly employed anycast and manycast routing strategies to improve the service connectivity and bandwidth resource utilization. Simulation results show that the proposed scheme can significantly reduce the service loss ratio, effectively prolong the holding time of the impacted services and decrease the data flow loss ratio in the post-disaster network.

optical datacenter network, link lifetime, network survivability, service restoration, service holding time

TN929.11

A

10.11959/j.issn.1000−436x.2018146

鲍宁海(1973−),男,浙江宁波人,博士,重庆邮电大学副教授,主要研究方向为网络生存性、网络虚拟、网络节能等。

袁园(1994−),男,江苏扬州人,重庆邮电大学硕士生,主要研究方向为光数据中心网络生存性。

刘自谦(1994−),男,山东菏泽人,重庆邮电大学硕士生,主要研究方向为光数据中心网络生存性。

匡明(1991−),男,河南新县人,重庆邮电大学硕士生,主要研究方向为虚拟网络生存性。

2018−05−07;

2018−07−02

国家自然科学基金资助项目(No.61671092);重庆市基础科学与前沿技术研究基金资助项目(No.cstc2016jcyjA0083);重庆市高校创新团队基金资助项目(No.KJTD201312)

The National Natural Science Foundation of China (No.61671092), The Fundamental Science and Frontier Technology Research Project of Chongqing (No.cstc2016jcyjA0083), The College Innovation Team Project of Chongqing (No.KJTD201312)

猜你喜欢
损失率路由灾难
雷击灾难
湿法炼锌除铝技术的研究与实践
农业农村部印发《意见》提出到2025年农产品加工环节损失率降到5%以下
不同油菜品种机收损失率及其与产量性状的相关性
铁路数据网路由汇聚引发的路由迭代问题研究
多点双向路由重发布潜在问题研究
一种基于虚拟分扇的簇间多跳路由算法
路由重分发时需要考虑的问题
12部使用一年后最廉价转售车
话说“灾难和突发事件”