彭晓平
(云南电网有限责任公司信息中心,昆明 650217)
目前,数字密集型应用如电子科学,电子商务,电话会议等的出现,使我们进入了“大数据”时代。不同于传统大数据应用可以产生大量的数据,传统的系统很难捕获、管理、存储和分析。云计算的最新进展表明,在多数据中心(multi-DC)系统上运行的大数据应用可以为终端用户提供低延迟、高质量、无中断的服务。最近,一些大企业建立了多DC系统,并投入研发力量进行高效的数据迁移技术;例如,Google已经部署了Effingo ,用于在其DC中迁移大规模数据[1-3]。然而,与数据迁移和备份相关的巨大吞吐量仍然是连接多个DC系统的底层网络的一个公开挑战[4-6]。
通过灵活的光谱层管理,柔性网格弹性光学网络(EONs)可以在几千兆赫甚至更小的粒度上分配光谱[7-8]。因此,EON中的光层可以直接对来自客户端的可变带宽需求做出反应,因此EON被认为是支持多DC系统和运行在其上的大数据应用的有前景的底层网络基础设施。本文讨论了实现弹性光学跨网络中大数据应用高效数据迁移和备份的技术[9-10]。首先描述大数据应用和云计算的特点,并解释它们对底层DC间网络的影响。然后介绍一下柔性网格弹性光学互连网络的概念,并将其数据迁移模型化为动态选播问题。提出了多种有效的选播算法,并引入联合资源碎片整理技术,进一步提高网络性能。为了实现高效的数据备份,我们利用相互备份模型,研究如何通过最小化DC备份窗口来避免对DC正常运行的负面影响。
大数据应用可以有不同的实现方式,但是从一些角度来看,它们通常具有共同的特征,例如音量,速度和多样性,著名的“3V”。在这里,卷描述了数据的大小,随着大数据应用的发展,数据量变得巨大,需要更多的计算、备份资源以及更高效的网络系统。速度反映了数据生成、处理和传输的频率。为了适应速度要求,需要大规模,分布式的业务架构和高容量的底层网络[11-12]。数据是指数据的格式和类型。由于需要处理和传输各种类型的结构化和非结构化数据,大数据应用不仅需要高效的数据存储系统,还需要灵活的网络基础设施。
云计算利用资源虚拟化,分布式处理等先进技术,利用互联网中的数据中心和网络设备构建一个集成平台,以可扩展和按需的方式支持大数据应用。已经为云计算提出了几种编程模型和文件系统体系结构。例如,Google设计的MapReduce就是一个编程模型来简化大型数据中心的数据处理。具体而言,它将海量数据映射到数百甚至数千个服务器或虚拟机(VM),并以并行方式执行数据处理。为了配合MapReduce,开发Google文件系统(GFS)来管理每个服务器或虚拟机的数据存储、备份[13-14]。
为了适应电信和数据通信应用的巨大流量增长,由于光纤带宽巨大,光网络在互联网中扮演着不可替代的角色。当今的光网络采用密集波分复用(DWDM)系统,在带宽固定的波长信道/网格内运行。然而,固定网格DWDM系统仅在光层上提供有限的可扩展性和灵活性,这使得传输基础设施过于僵化,无法适应跨DC间网络的流量的不确定性和异构性。例如,50 GHz国际电信联盟(ITU)的波长网格将光谱划分为固定的50 GHz频率时隙,但400 Gb / s或更高的比特率很难适应该方案。
固定网格DWDM系统的另一个问题是它们用于数据传输的单载波方案。即使ITU波长网格可以升级到更宽的网格,由于物理损伤,相应的高速(例如,400Gb / s和更高)数据传输与单个载波几乎不能全光支持长的传输距离。因此,为了携带地理分布的多DC系统,底层的光网络需要重复的光电到光(O / E / O)再生。然而,由于设备成本和功耗的原因,这些O / E/ O再生与较高的资本支出(CAPEX)和运营支出(OPEX)相关联。
最后,也是最重要的一点,固定网格DWDM网络难以为大数据应用提供无缝,高效的支持,而这些大数据应用的带宽需求是巨大的,而且能够以细粒度快速变化。DWDM网络只能根据粗波长网格建立光路并分配带宽。不幸的是,这个方案只在传输的业务是高度动态时才提供低的频谱效率。
为了妥善解决固定网格DWDM网络的问题,需要配备带宽可变(BV)转发器和交换机的“弹性”光网络,以更细的粒度分配带宽,并根据实际的业务需求自适应地建立光路径DC网络[15-16]。对于EON来说,四个要素是必不可少的:BV转发器(BV-T),BV波长选择开关(BV-WSS),灵活的波长网格和智能控制平面。
图1a显示了数据传输过程中BV-Ts和BVWSS的工作原理。BV-Ts用足够的带宽资源为客户端流量设置光路,而BV-WSS允许灵活的光谱从输入到输出端口正确切换。图1b比较了现有的固定网格波长方案和柔性网格方案。EON的灵活性使得智能控制平台成为具有成本效益的资源管理的“必备条件”。例如,在EON中,DWDM网络中着名的路由和波长分配(RWA)问题转化为路由和频谱分配(RSA),RSA必须处理灵活的频谱,因此需要更复杂的算法[9]。
柔性电网EON与固定网格DWDM网络的主要区别在于EON可以提供低和超高比特率要求分别有效的亚波长频隙(FS)和超级通道。这里,子波长FS是指比全波长信道少的频谱占用,而超级信道包含多个紧密压缩的FS。而且,BV-Ts可以自适应地选择调制格式来适应不同的传输质量,这带来了另一个层次的弹性。
用于弹性光网络的启用技术多载波传输技术,例如相干光正交频分复用(CO-OFDM)和Nyquist-WDM 已经被提出并被证明用于实现BV-Ts。这些技术使得BV-Ts可以培养几个频谱连续的FS的容量并实现对它们的高速传输[17-18]。然后,BV-Ts可以通过调整分配的FS的数量来改变光路的带宽分配。同时,由于液晶硅波长选择开关(LCOS-WSS)的技术进步,BV-WSS可以实现6.25 GHz或更低的切换粒度。
图1 柔性网格弹性光纤网络
由于EON为光路分配可变尺寸的频谱片段,因此动态网络操作随着时间的推移会出现频谱碎片。如图2a所示,带宽碎片会在光谱中产生不对齐的、孤立的、小尺寸的未使用的频谱片段,这与计算机硬盘中的存储器碎片相似。由于这些频谱切片很难用于未来需求,因此分段导致EON中的频谱利用率低。为了减轻分裂,我们需要一种机制来定期重新配置EON中的频谱分配(如图2b),即所谓的碎片整理。请注意,为了最大限度地减少流量中断,碎片整理需要将受影响的光路精确地协调BV-Ts和BV-WSS的频谱重新分配。基于跳频调谐的频谱重调技术已经被提出并且在中被实验证明,其可以支持在1μs内的全频谱重调。
图2 带宽碎片和碎片整理示例
图3说明了一个弹性光学内部DC网络的架构。我们有几个DC在本地连接到交换节点,而交换节点与光纤互连。底层光网络采用柔性网格弹性光网络,每个光纤上的带宽资源被划分为固定大小的FSs,以提供子波长带宽分配粒度。对于本地连接到DC的每个节点,我们考虑DC的计算/存储容量。然后,为了提供需要一定带宽和计算/存储资源的U2D或D2D需求,我们确定目的地DC,在其上保留足够的计算/存储资源,然后解决路由和频谱分配(RSA)问题来建立光路。
图3 弹性光学互连DC网络的示例
弹性光学互连网络中的数据迁移可以被表述为选播问题。根据BV-Ts和BV-WSSs的工作原理,假设在每条光纤链路上都有BFS。交换节点的一个子集在本地连接到DC,并被认为是DC节点。每个DC节点用一个属性来表示可用的属性在本地DC计算/存储容量。请注意,DC可以具有单独的属性来描述其计算和存储容量,但是为了简单起见,我们假定计算和存储容量是相关的,因此可以用一个属性来建模。U2D或D2D对数据迁移的需求可以建模为任意播请求R(s,b,c),其中s是源节点,b是FS中所需的带宽,c是计算/存储要求。
用于数据迁移的动态选播
在弹性光互连DC网络中,我们提供了三个步骤的数据迁移需求R(s,b,c)
1)选择DC节点作为目的地。
2)确定要在每个目标DC上分配的计算/存储容量以满足c。
3)执行RSA以建立从s到目的地DC的光路以满足b。
由于需求可以动态地离开,我们在这里有一个动态的选播问题。如果在需求到达时不能分配足够的资源(即b或c不能满足),它就会被阻塞。我们的目标是尽量减少阻塞概率,因为阻塞的需求越多,网络的效率就越低。
首先考虑一个简单的情景,其中每个需求由一个DC服务。然后设计一个最短路径路由的贪心选播算法如下:
步骤1:查找具有最大可用计算/存储容量的DC,并将其选为需求的目标DC。
步骤2:计算从s到目标DC的最短路由路径。
步骤3:在路由路径上执行FS分配以满足b。
我们将此算法表示为对于单个目的地DC(G-Anycast-SP-Single-DC)具有最短路径的贪婪选播。G-Anycast-SP-Single-DC很简单,但只考虑目的地DC选择的计算/存储资源。尽管在第一步中选择具有最大可用容量的DC可以使计算/存储负载在DC之间均匀分配,但在随后的步骤中可能找不到有效的RSA解决方案。
因此,在选择目的DC时,希望Anycast算法能够共同考虑计算/存储和带宽资源。这可以通过将度量定义为DC上的可用容量与相关路由路径上的可用带宽的乘积来完成。基本上,对于网络中的每个源-目的地对,我们预先计算K个最短路由路径,然后设计具有K-最短路径路由(BL-Anycast-KSP-Single-DC)的均衡负载选播算法如下:
步骤1:找到所有具有足够的计算/存储容量以容纳c的DC。
步骤2:枚举所有可行的到DC的路由路径,并计算每个路径-DC对的度量。
步骤3:选择具有最大度量的路径-直流对,并在路径上执行FS分配以满足b。
需要注意的是,DC备份窗口定义为在DC间网络中备份DC上的所有新数据所需的时间,这是评估DC备份计划的关键参数。由于DC备份通常需要传输大量的数据,因此会占用大量的带宽,长时间的DC备份窗口会影响数据中心的正常运行,造成网络拥塞。因此,我们研究如何通过联合优化备份DC的选择以及在弹性光学跨DC网络中的对应路径来减少DC备份窗口。
我们假设网络在离散时间间隔operatesT上运行。在每个时间间隔开始时,每个生产DC选择其备用DC,并根据网络状况找到备用路径;那么DC备份过程将相应地运行。同时,还有两个限制:
1)每个生产DC只能选择一个备用DC,而备用DC只能接收一个生产DC的数据。
2)生产和备用DC应该在地理上分散,而不会落入同一灾难区域。
第一个约束是在DC备份期间简化数据索引,而第二个约束确保单个灾难不能同时破坏DC。当生产DC上的所有数据都已备份时,DC备份过程结束; 那么总备份时间就是DC备份窗口。为了最大限度地减少直流备份窗口,我们优化每个backupT的备份过程,即确定生产-阻塞概率阻塞率(%)建立DC对并为每个DC对建立光路以传输数据。请注意,为了充分发掘网络的吞吐量,我们允许生产DC同时为其备份DC设置多条光路。
本文讨论如何在弹性光学跨网络中实现高效的大数据应用数据迁移和备份。我们首先描述大数据应用对底层DC间网络的影响,并介绍可适当解决这些问题的柔性网格弹性光学互连网络的概念。然后将这些网络中的数据迁移建模为动态选播问题,并提出了几种有效的算法。对于这些网络中的数据备份,我们利用相互备份模型并讨论如何最小化DC备份窗口。