OBS网络中基于可用性感知的故障恢复机制

2012-06-25 03:31李季碧路振山

电视技术 2012年3期

李季碧，赵蕾，路振山

(重庆邮电大学通信与信息工程学院，重庆 400065)

目前提出的OBS网络故障恢复机制主要关注于如何缩短故障的恢复时间，加快恢复速度。而对于恢复后的通信负载如何在网络中进行均衡分配则少有研究。提高恢复速度一般采用预先计算路由的主动式故障恢复方案［1－3］，并且为了便于分析通常假设链路的容量足够大。但是，在网络产生故障时，这些方案只是简单地将故障路径上的业务转移到备份路径上传送，这种转移容易造成备份路径的拥塞，导致网络吞吐能力下降。

为保证备用路径的可用性，同时避免备份路径拥塞，网络不仅需要对故障后的负载进行均衡分配，而且要加强网络对链路可用性的感知功能。为此，笔者改进了传统的故障恢复机制，在支持区分业务恢复机制的基础上，引入可用性自感知机制。网络通过恢复路径拥塞状态的反馈结果，对受损业务进行均衡分配，从而提高网络对高优先级业务的恢复能力。

1 快速故障恢复策略

如图1所示，假设网络使用JIT协议［2］，每个核心节点含有一个通向目的节点的工作路径及恢复路径下一跳节点信息的转发表。采用2－shortest－path的路由算法，一条作为工作路径，另一条作为恢复路径。网络采取集中式管理，网络中所有节点根据来自中心网管系统的链路状态信息更新转发表。

图1 快速恢复策略示意图

当节点X－D之间链路出现故障，节点X首先采取本地恢复，将业务转发到备用路径L0中，同时产生并广播告警信息。当节点Y收到告警信息后，屏蔽故障链路，更新并广播告警消息，在L1和L0中选择最优路径作为恢复路径，转发受影响的业务。当告警消息传至源节点后，源节点屏蔽故障链路，启动通道恢复，将受影响的业务通过恢复路径L2转发。

快速故障恢复机制充分利用两种恢复策略的优点，在不同恢复阶段采取不同的恢复策略。即为加快恢复速度，故障前端节点进行本地恢复，并广播告警信息。随着告警信息的广播，各节点根据资源利用情况采取合适的恢复机制，从而提高资源利用率。

由于OBS网络采用单向波长信道预约方式，所以很容易引起数据突发竞争，占用波长信道资源，从而导致数据丢失。尤其在网络出现故障的情况下，简单地将故障路径上的业务转移到备份路径上传送，更容易造成备份路径的拥塞，造成大量数据突发丢失并引起核心节点业务吞吐量的迅速下降。如果拥塞状况不能及时解决，则会进一步加重OBS网络的拥塞，导致链路不可用，恶化网络性能。

2 基于可用性感知的故障恢复机制

恢复节点简单转发受损业务，容易出现备份路径拥塞现象［4－5］，从而导致网络的可用性降低。为解决上述问题，该方案在快速恢复策略中引入可用性感知机制。故障恢复节点通过恢复路径的拥塞状况反馈结果，对故障后的负载进行均衡分配，从而提高业务恢复率，改善网络性能。

2.1 恢复方案描述

如图2所示，当节点X－D间链路出现故障，节点X采取本地恢复，将产生的CMP(Control Management Packet)沿恢复路径L0发送到目的节点D，同时产生并广播告警信息。目的节点D收到CMP后，处理并产生确认分组CMP－ACK(Control Management Packet－Acknowledge)，CMP－ACK周期性沿路L0返回节点X，沿途中各节点将本节点的拥塞状况填入CMP－ACK，节点X根据L0中各节点的拥塞情况调整转发的业务量，不能成功转发的突发数据则丢弃。当节点Y收到告警信息后，屏蔽故障链路，更新并广播告警消息。选择最优的路径L0作为默认恢复路径，并在转发受影响的业务前，分别通过恢复路径L1和L0向目的节点D发送CMP1，CMP2。节点Y根据周期性收到的CMP－ACK1，CMP－ACK2调整转发至两条路径的业务量。如果其中一条链路出现拥塞，则减小其对应的发送窗口，增大另外一条恢复路径的发送窗口。如果两条路径都拥塞，则节点主动丢弃突发数据。当拥塞解除后，增加默认恢复路径的业务发送量。同样，当告警消息传至源节点后，源节点屏蔽故障链路，启动通道恢复。并根据来自L0，L1，L2的 CMP－ACK调整转发至3条路径的业务量。

图2 基于可用性感知的恢复机制示意图

2.2 可用性确定与流量调整

该机制以链路中某个节点一个周期内通过该节点端口的各路径上的BDP丢失率是否大于路径可用门限作为判断链路可用性的条件。在这里，仅考虑由业务拥塞导致链路的不可用，链路可用门限即为节点的拥塞门限。假设核心节点的拥塞门限为D，节点的总丢失率为Pnode;通过节点的路径有N条;Di为节点第i条路径单位时间内接收的突发总数量，其中丢失的突发数为DLi;拥塞解除门限为D－δ;δ为一个任意小数，则

当Pnode＞D时，表明节点发生拥塞，路径不可用，并将CMP－ACK中节点拥塞告警指示CF置1;当Pnode≤D－δ时，表明链路可用或拥塞解除，恢复链路可用，并将CMPACK中节点拥塞指示CF清0。

恢复链路覆盖的各核心节点将本地节点的拥塞状态通过分组CMP－ACK反馈给恢复操作节点，恢复操作节点根据链路的可用情况采取相应的措施调整发送流量的大小。如果可用性告警指示CF为0，则选用最优恢复路径偏转受影响的全部业务;如果可用性告警指示CF为1，则根据业务量调整策略减少流量。

目前，OBS网络中没有高速光随机存储器，对BDP没有缓存过程，只有用光纤延迟线(FDL)作为光数据单元的缓存器。在核心节点中除了有限延时的FDL缓存器外，很难做到对大量业务的随机存取［3］。当BDP到达核心节点时，如果没有空闲的波长信道承载业务，则该BDP只能被丢弃。因此，传统的调整节点业务发送速率的方式［4－5］不再适用于OBS网络。

通过对业务划分不同的优先级，以不同优先级的业务为调整对象，以相同优先级的所有受影响的BDP为调整粒度，来调整故障恢复节点转发业务流量的大小。流量调整机制如下:

1)未收到拥塞告警，默认为恢复路径没有拥塞，将所有受影响业务通过最优恢复路径转发至目的节点。

2)收到拥塞告警，CF=0，恢复路径没有拥塞，将所有受影响业务通过最优恢复路径转发至目的节点。

3)收到拥塞告警，CF=1，恢复路径发生拥塞，首先，查询当前拥塞路径中转发业务的优先级别。其次，将当前拥塞路径中转发的低优先级业务通过其他恢复路径转发至目的节点。如果该节点没有其他恢复路径，或其他恢复路径中无空闲资源，则丢弃低优先级业务。然后，将较高优先级业务通过最优恢复路径转发至目的节点，直至所有业务由最优恢复路径转发至目的节点。

4)收到拥塞告警，CF=0，恢复路径拥塞拥塞解除，首先，较高优先级业务通过最优恢复路径转发至目的节点。其次，查询其他恢复路径中转发业务的优先级别。最后，将由其他恢复路径转发业务中较高优先级业务通过最优恢复路径转发至目的节点，直至所有业务由最优恢复路径转发至目的节点。

2.3 恢复方案实施过程

根据恢复节点有无收到拥塞告警信息，可将恢复方案的实施过程分为2个阶段:恢复启动阶段和自适应调整阶段。假设业务分为3个优先级别:Class0，Class1，Class2。其中Class0优先级最高，Class1次之，Class2优先级最低。下面介绍各阶段的恢复机制实施过程。

在恢复启动阶段，当链路发生故障时，节点首先产生并广播告警信息，同时查询恢复路径。节点在转发受影响业务之前，生成CMP，由恢复路径中的控制信道传送到目的节点，并接收来自目的节点的CMP_ACK。CMP_ACK携带恢复路径的拥塞信息。如果节点未收到CMP_ACK，将受影响的全部业务转发至恢复路径;如果恢复信道没有可用资源，则将丢弃业务。

在自适应调整阶段，当节点收到来自目的节点的CMP_ACK后，节点根据CMP_ACK携带的拥塞信息对转发的不同优先级别的业务量进行自适应调整。CF=0和CF=1时的调整过程如图3～4所示。

图3 CF=0时恢复节点处理流程图

3 仿真及性能分析

采用OPNET仿真软件对改进机制进行仿真验证。网络仿真拓扑如图5所示。业务源采用ON/OFF模型，且ON∶OFF=1∶1，ON期间IP包的产生间隔服从负指数分布，突发包分为3个优先等级，从高到低依次为BE，AF，EF，且3 种类型业务的强度之比为 BE∶AF∶EF=1∶2∶2。每条链路有8条数据信道和1条控制信道，信道传输速率为2.5 Gbit/s，假定链路的传输时延为0.2 ms。

不同恢复机制下恢复时间与负载的关系如图6所示。

带有可用性感知的恢复机制(Con_QoS)与基于链路的恢复机制(Link)具有较低的恢复时间，且两者相差不大，平均为0.506 ms。这是因为两种机制都由故障链路的前端节点采取恢复操作，节省了故障告警传输时延。而基于子路径的恢复机制(Subpath)及基于通道的恢复机制(Path)由于要等到故障告警信息传到恢复操作节点及源节点之后，才实施恢复动作，因此较之带有可用性感知的恢复机制(Con_QoS)与基于链路的恢复机制(Link)具有较大的传输延时，从而导致恢复时间增大。

当节点2负载为0.5时两种机制在不同门限下的丢包率随仿真时间的变化关系如图7所示。其中NON_QoS为没有可用性感知的恢复机制，CON_QoS，CON_QoS_1，CON_QoS_2为基于可用性感知的恢复机制，不可用门限分别为0.012，0.0115 ，0.011。由图7可知，基于可用性感知的恢复机制相比不带有可用性感知的恢复机制具有较好的丢包性能。当备用链路发生拥塞时，即丢包率大于不可用门限时，基于可用性感知的恢复机制能够及时调整转发流量大小，通过主动丢弃较低优先级业务的方式解决备用链路的不可用问题，因此丢包率在不可用门限左右。

图7 节点2不同门限时丢包率与仿真时间的变化关系(Load=0.5，截图)

节点2采集到的基于可用性感知的恢复机制在不同告警周期下的丢包率随仿真时间的变化关系如图8所示。其中负载Load=0.5，可用门限D=0.011。由图8可知，恢复操作节点周期越小，丢包率的摆动幅度越小，越接近门限值。这主要因为当备用链路发生拥塞时，告警周期越小，基于可用性感知的恢复机制越能够及时调整转发流量大小，通过主动丢弃较低优先级业务的方式解决备用链路的不可用问题，不仅在恢复操作节点较低优先级业务转发包数的变化率越低，而且备用路径中丢包率在不可用门限左右摆动的幅度也越小。

图8 节点2丢包率与仿真时间的变化关系(Load=0.5，D=0.011，截图)

节点2处不同恢复机制总丢包率与网络负载的关系如图9所示。其中NON_QoS表示传统的不带有可用性感知的恢复机制，CON_QoS表示基于可用性感知的恢复机制，可用门限D分别取值0.02，0.015，0.011。由图9可知，在负载低于0.51时，两种机制的丢包率都随业务负载的增加而增大，且两种机制具有相同的丢包率，因为此时没有达到恢复机制的可用门限。但当丢包率高于可用门限时，基于可用性感知的恢复机制的丢包率保持在可用门限左右，而不带有可用性感知的恢复机制则随负载的增大而增大，表明当Load＞0.51时，基于可用性感知的恢复机制在丢包率方面相比传统没有可用性感知的恢复机制具有较好的性能。这主要是因为带有可用性感知的恢复机制能够根据恢复路径的链路可用指示信息周期性地调整转发业务量，从而有效避免了因为链路拥塞而导致的链路不可用，提高了恢复成功率，并且可用性门限越低，丢包率越小。

图9 节点2丢包率与网络负载的关系

4 结论

本文针对快速恢复机制所存在的问题，提出了一种基于可用性感知的故障恢复机制。通过对备用链路的可用性感知，使得故障恢复节点能够根据链路的拥塞情况进行自适应的业务均衡分配。业务量的转发以优先级为调整粒度，从而在恢复过程中很好地实现了业务区分，增强了网络对高优先级业务的恢复能力。

仿真结果表明，基于可用性感知的恢复机制比传统的恢复机制具有较好的丢包性能，并且能够对业务进行区分。对高优先级业务丢包性能的改善更为明显，提高了对受影响业务尤其是高优先级业务的恢复能力，从而改善网络性能。

［1］XIONG Y，VANDERHOUTE M，CANKAYA H C.Control architecture in optical burst－switched WDM networks［J］.IEEE Journal on Selected Areas in Communication，2000，18(10):1838－1851.

［2］XIN Yufeng，TENG Jing，KARMOUS E G，et al.Fault management with fast restoration for optical burst switched networks［C］//Proc.BroadNets 2004.［S.l.］:Broadband Networks，2004:34－42.

［3］HUANG Y，HERITAGE J P，MUKHERIEE B.Dynamic routing with preplanned congestion avoidance for survivable optical bust－switched(OBS)networks［C］//Proc.OFC/NFOEC 2005.［S.l.］:OFC，2005:3－7.

［4］CHEN Hehe，GAO Zehua，NING Fan，et al.A novel burst assembly algorithm based on control channel and traffic type for OBS［C］//Proc.APCC 2009.［S.l.］:APCC，2009:507－510.

［5］郭彦涛，文爱军，刘增基，等.光突发交换网络拥塞控制策略［J］.西安电子科技大学学报:自然科学版，2009，36(1):5－10.