林习良,周锦标,赵乾宏
(中国卫星海上测控部,江苏 江阴214431)
在应用某型多业务交换机(Multiservice Switch,MSS)作为节点设备组建的帧中继数据传输网中,某节点需同时与不同方向传输多路同步数据和IP数据,业务运行期间,在设备连接正常的情况下,先后发现了通过不同广域网链路传输的IP数据相互影响和IP数据影响同步数据两种异常现象,主要表现为IP数据有明显丢包、传输时延和时延抖动大幅增加、同步数据瞬间失步。
针对数据传输方面的问题,已有一些论文进行过分析介绍,但大多着眼于单个业务本身传输出现异常,很少涉及不同种类业务间干扰引起的问题。文献[1]对同步数据传输中接口信号时序关系异常引起的问题进行了分析,文献[2-4]对IP数据传输中存在的问题进行了分析,相应方法均无法解决本文发现的问题。
本文通过对先后出现的两种异常现象工作状态的比对,对故障触发条件进行了分析与仿真,确定所发现的问题与IP数据流量过大导致网络拥塞有关,通过采取限速和区分发送优先级等措施,实现了各业务稳定可靠传输,实际使用效果在多次大型任务的数据传输中得到了检验。
该型MSS支持面向连接和无连接两类业务。比特透明数据业务(Bit Transparent Data Service,BTDS)属于面向连接类型,采用面向路径路由系统,它通过建立并保持的端到端路径进行传输,业务链路一旦建立,传输路径也相对固定,但受板卡时钟限制,只能支持9.6~3840 kbit/s范围内部分特定的速率。虚拟路由器(Virtual Router,VR)业务属于无连接类型,采用动态分组路由系统(Dynamic Packet Routing System,DPRS),IP数据通过帧中继的永久虚电路(Permanent Virtual Circuit,PVC)传输,所经路由根据数据包中的地址信息和各节点路由表确定,并随网络拓扑和数据流量的状态变化而自动调整,能够支持50 Mbit/s以下任意速率。
在该数据传输网方案设计时,综合考虑业务流量统计、板卡支持速率和带宽利用率等因素,MSS采用BTDS部件传输同步数据,通过同步串行接口相连,为数据终端互联提供传输通道;采用VR部件传输IP数据,通过以太网口相连,为两地局域网LAN11与LAN21、LAN12与 LAN32互联提供广域网链路,并实现两网隔离。在卫星电路带宽受限情况下,业务连接关系和相应传输速率如图1所示。在图1中,节点1以发送速率3648 kbit/s、接收速率384 kbit/s(简写为3648/384 kbit/s,其他速率表示方法类同)的双向不对称卫星电路作为Trunk与节点2相连,并通过节点2与传输网其他节点互联,开通业务包括两路同步数据和两路 IP数据,其中LAN11与LAN21通过VR1广域网链路互联,传输重要的实时任务数据,数据流量比较平稳,对链路传输时延和丢包率有一定要求;LAN12与LAN32通过VR2广域网链路互联,传输日常办公信息和提供FTP文件传送服务,数据流量具有较大的突发性,要求链路提供尽可能高的吞吐量。同步数据1与同步数据2均为数字话音业务,对传输实时性要求较高。
图1 业务连接关系Fig.1 Connection relationship of the service
各业务单独调试正常后,当节点1所有业务同时运行时,LAN11网内终端接收的广域网数据出现了丢包、时延和时延抖动大幅增加等现象,而同步数据1、同步数据2及LAN12网内终端接收的广域网数据均正常。检查节点1与节点2间的卫星电路质量,误码率优于1×10-7,满足指标要求;在LAN11网内终端上Ping远端LAN21路由器广域网口,发现已存在丢包;根据故障现象,考虑到节点1入口带宽较小,初步判断广域网链路出现拥塞的可能性较大,试关闭VR2业务,LAN11网内终端接收数据正常,Ping LAN21路由器广域网口无丢包,恢复VR2业务后故障复现。由此可见,节点1开通的两个VR业务数据在传输过程中存在相互影响。
根据技术资料,MSS开通VR业务除了需配置传输路由、网络地址和协议部件等基本参数外,如需提供差别化的业务传输性能和服务质量,还要根据业务特点配置PVC路由策略、传输速率和发送优先级等参数。针对上述问题,对通信各方状态设置进行比对梳理,发现各节点VR业务传输速率、路由策略等符合方案要求,发送优先级为默认的最低级0,将VR1业务发送优先级设置为最高级15后,先前的问题得到解决。
系统稳定运行很长一段时间后,在一次业务联试过程中,在VR2业务关闭的情况下,节点1运行的业务又多次出现闪断现象,具体表现为同步数据1和同步数据2出现瞬间失步,同时LAN11网内终端接收的广域网数据有丢包。闪断现象出现时同步查看卫星电路质量良好,帧中继Trunk状态和业务连接均正常;查看同步数据终端上记录的告警信息,存在本地失步,接收数据误码率大于1×10-3,而远端对应终端接收数据正常、无失步。随后了解到,在第一次出现闪断现象时间点附近,LAN11网内一业务终端按照远端用户要求进行了重启,并接收了LAN21中相应终端远程下发的策略。而关闭LAN11内各业务终端,保持VR1业务开通但LAN11与LAN21间无业务数据经广域网链路传输,同步数据业务工作正常。
根据上述现象和图1所示设备连接关系,可确定节点1与节点2间全程链路物理连接正常,传输异常可能由MSS参数设置或广域网数据流量等方面的原因引起。下面首先从参数设置入手在节点1进行分析排查。
在MSS开通业务链路需配置的参数中,与链路服务等级相关的高级设置见表1。其中,业务传输优先级包括发送优先级和丢弃优先级两个参数,发送优先级(Transfer Priority或Emission Priority)表示业务的紧急程度,代表数据队列等待发送时输出的先后顺序;丢弃优先级(Discard Priority)表示业务的重要程度,代表网络拥塞时队列中数据被丢弃的先后顺序。最初状态下节点1相关参数均采用默认值,虽然发送优先级通常在发送端设置,但根据VR业务PVC连接双方商定的主/从属性,节点1呼叫类型设为永久主叫端(PermanentMaster),节点2设为永久被叫端(PermanentSlave),由于越过发送优先级(TransferPriorityOverRide)参数有效,主叫端设置的发送优先级也在被叫端生效,即节点2 VR业务的发送优先级也由节点1相应参数决定。
表1 MSS相关参数设置Fig.1 Parameters of MSS
对于发送优先级,帧中继不同类型业务或路由系统采用不同的表示方式,BTDS分0、1、2共3级,VR业务分0~15共16级,DPRS路由等级分Multimedia、Delay和Throughput 3级,与 Trunk传输队列的发送优先级对应关系见表2[5]。
表2 帧中继发送优先级定义Fig.2 Frame relay transfer priority definitions
当Trunk成帧类型为Interrupting时,其优先级分Interrupting、High和 Normal 3级,这意味着支持Interrupting队列为最高传输优先级,它能够随时中断优先级为Normal或High的正在传输的数据帧而先行传输,待其完成后其他数据再恢复传输,而优先级为High的数据只能等待位于其队列前面的优先级为Normal或High的数据传输完成后才能进行传输。Trunk上不同优先级队列传输关系如图2所示,图中数字表示按时间先后生成的待发送数据队列序号。
图2 帧信元中继传输队列Fig.2 Frame - cell trunk transmission queues
针对节点1最初发现异常时两个VR业务受影响的不同现象,先对通过VR1和VR2传输的数据特性进行分析。在TCP/IP模型中,传输层主要有两种协议,即传输控制协议(Transfer Control Protocol,TCP)和用户数据报协议(User Datagram Protocol,UDP)。TCP具有差错检测、重发控制和流量控制等功能,能够提供有连接的、可靠的数据流传输服务,但卫星通信的大时延会严重影响TCP的性能,应用于卫星链路时存在一个传输速率瓶颈,最大吞吐量不会超过1 Mbit/s[6];UDP传输效率较高,它为应用层提供的是一个不可靠的、无连接的传输服务,由应用层自行完成数据的差错控制等功能[7]。根据前面提到的不同业务特点和各自传输要求,LAN11与LAN21间传输的数据采用 UDP协议,LAN12和LAN32间传输的数据采用TCP协议。当网络出现拥塞或传输链路质量下降时,在不同的差错控制机制作用下,UDP数据被直接丢弃,LAN11网内终端便会发现丢包现象,而TCP数据丢弃后被要求重传,LAN12网内终端显示的是传输速率有所下降,难以发现丢包现象。因此,在相同条件下,UDP数据比TCP数据更易受链路质量的影响,要保证其传输可靠性,需进一步改善其传输链路条件。
最初状态下两个VR业务的发送优先级均为默认值0,根据表2中定义,帧中继路由系统将以吞吐量(Throughput)最大为准则,尽可能利用可用带宽,这正好适应了LAN12与LAN32间传输的信息特点和需要。前面已指出,LAN12与LAN32间的业务包含FTP文件传送服务,极易出现持续的大流量数据,当该数据流与通过VR1传输的其他业务数据一起进入Trunk队列时,Trunk处于重负荷状态(尤其是入口电路),而帧中继具有丢包率随吞吐量或带宽利用率提高而增大的特点[5],此时等效于链路传输质量下降,对优先级同为 Normal的 VR1中的UDP数据产生影响。
由于节点1入口电路带宽较小且受卫星电路限制,VR业务可用的带宽难以进一步提高,提高传输优先级成为改善链路条件的重要选择。当将VR1业务发送优先级提高为15后,路由系统将其按照对时延敏感的多媒体数据(Multimedia)来处理,LAN11与LAN21间的UDP数据能够中断VR2中的业务数据优先传输,从而避免了低优先级业务的影响。
图3 节点2路由器与MSS连接关系Fig.3 Connection relationship between router and MSS in node 2
通常情况下,同步数据的传输要求要高于IP数据,因此,帧中继网中面向连接业务默认传输优先级为最高,无连接业务默认传输优先级为最低。前面为解决VR业务相互影响问题将VR1业务发送优先级设置为15后,它在Trunk传输队列中的优先级与BTDS相同,两种不同类型业务数据将按进入Trunk队列的时间先后顺序传输。当数据流量未超过可用带宽时,不管何种优先级的业务、是否超出预期流量,帧中继网都会尽力传输,数据包不会被丢弃;若数据流量超出可用带宽,Trunk出现拥塞,在数据包被丢弃的同时,可用带宽在优先级相同的BTDS与VR业务之间公平分配,而数据包则按照各自的丢弃优先级丢弃而不考虑业务类型等方面的限制,因VR业务丢弃优先级(Normal)比BTDS低,发生拥塞时VR业务数据包首先被丢弃,所以先出现IP数据丢包,后出现同步数据失步,严重时就会出现两种业务同时闪断。因同步数据终端产生的数据码速率固定,在VR2业务已经关闭的情况下,只有VR1数据流量可能超出可用带宽,而节点1接收数据异常表明问题原因可能在入口方向。
为验证LAN11与LAN21间的广域网数据流量的影响,分别在LAN11与LAN21网内交换机上连接Fluke Metroscope网络测试仪进行广域网数据模拟收发试验,LAN21端测试仪设置为远端模式,由LAN11端测试仪主动发起测试,数据包长64 byte,发送速率保持3072 kbit/s不变,通过改变LAN11端测试仪下行速率(即接收速率)模拟接收数据流量变化,发现下行速率低于160 kbit/s时,各业务传输正常,当下行速率大于160 kbit/s时,节点1业务出现闪断,故障复现,且下行速率越高,闪断现象越频繁,而增大发送数据包长,出现闪断时的临界速率则有所下降。由于广域网链路单个流向的传输速率由数据发送方设置,由此可见节点1业务闪断与节点2 LAN21广域网出口数据流量过大有关。
节点1卫通电路接收速率为384 kbit/s,除去固定分配给BTDS1、BTDS2业务的带宽和数据复接所需的开销,传输可用的剩余速率不足170 kbit/s,在VR2业务关闭的情况下,VR1业务下行速率大于160 kbit/s时,网络带宽利用率超过94%趋于拥塞,远超出正常使用时广域网平均带宽利用率不超过80%的要求,出现丢包属合理现象。
根据了解到的情况,节点2为减少设备端口的使用,期间曾对设备状态进行过调整:路由器对节点1与另外两个节点的IP数据业务共用一个物理端口与MSS以太网口连接,路由器广域网口对3个方向共同限速为192 kbit/s,而调整前状态按方案要求设置,单个节点方向路由器广域网口限速64 kbit/s,状态变化如图3所示。
MSS VR业务的速率可通过用户网络端口FrUni或协议端口FrDte两个子部件来配置,两者同时配置时实际速率以数值较小者为准,节点2对图3所示各方向PVC的设置为:FrUni限速384 kbit/s,相应限速开关采用默认值“开启”,FrDte限速64 kbit/s,相应限速开关采用默认值“关闭”。由此可见,即使通过帧中继FrUni、FrDte和路由器端口三重限速级联,节点2对节点1的VR业务实际发送速率仍可达到192 kbit/s,远超出方案规定的限速64 kbit/s要求,与网络测试仪测试结果相符,只要LAN21网内终端产生较大的突发流量,就很可能会出现广域网出口流量超出分配带宽或接近可用带宽的情况,从而引起拥塞[8]。
使用专用软件在节点1路由器镜像端口进行抓包,对LAN11网内某业务终端重启后接收LAN21远程下发策略时的数据流量进行过滤统计,发现该系统业务接收数据会出现较大的突发流量,如图4所示,并可同步观察到业务闪断现象,而该业务为临时增加且未分配传输带宽。虽然加上其他已分配传输带宽的数据总流量还未达到160 kbit/s,分析认为这与实际业务数据包长远大于64 byte有关。
图4 业务终端重启产生的数据流量Fig.4 Traffic of the terminal in restarting
从图2可以看出,当Trunk传输队列中优先级为Interrupting的数据包较大时,会对位于其后的其他所有数据产生影响,因BTDS分配的速率固定,数据长度和占用Trunk传输队列的时间也相对固定,能够保证相互间在时隙上不重叠,而IP数据包长(64~1518 byte)可变,突发流量中出现大数据包时,就会占用Trunk传输队列较长时间,如果网络负荷较重,就会对等间隔传输的BTDS产生影响。因此,《帧中继业务配置管理手册》建议:持续的Multimedia级业务超流量会降低服务质量,引起丢包率上升,如要确保传输链路的可靠性,通常应将Multimedia级VR业务的比例控制在无连接业务可用带宽的30%以内,最高不超过60%[9],对于本文案例为不超过105 kbit/s。
因此,VR业务影响BTDS的原因由三方面因素引起:一是使用未经许可的终端增加了VR业务数据流量,二是节点2未对VR业务实施有效的限速,三是节点1设置的VR业务发送优先级过高,从而导致节点2发送的最高优先级的突发流量超出可用带宽,传输带宽不足引起帧中继Trunk出现拥塞,数据被丢弃出现业务闪断。
通过以上分析可以看出,发送优先级设置过低,VR1业务易受VR2业务数据流量的影响;设置过高,则会出现VR1业务数据流量影响BTDS的现象。为进一步确定VR1业务的发送优先级,随后进行了参数修改试验,以初始状态为基础,当VR1业务发送优先级设置为0~5时,VR2业务传输大流量数据仍会对VR1业务产生影响;当VR1业务发送优先级设置为11~15,节点2未修改限速情况下,VR1业务传输大流量数据也会引起BTDS瞬间失步,而将其发送优先级设置为6~10时,上述两个问题得到有效解决。
综合以上分析和测试结果,为达到最初的设计要求,防止网络拥塞和业务间相互影响,最终采取了以下措施:
(1)关闭未分配传输带宽的联网终端以免产生额外流量,防止通过VR1互联的网络内部各业务因传输带宽不足出现丢包等问题;
(2)节点2将VR业务PVC的FrUni限速设为64 kbit/s,同时开启相应限速开关;
(3)节点1将VR1业务发送优先级设置为10,VR2业务发送优先级保持为0,所有BDTS发送优先级保持为0。
据此设置参数后,在图1所示业务全部运行的情况下多次进行数据传输试验,各业务传输正常,相应技术状态在“嫦娥”三号等任务的数据传输中通过了检验,并在多个节点得到应用。
本文分析了帧中继业务运行中出现相互干扰的原因,得出了该现象与IP数据流量变化引起网络带宽利用率过高导致数据丢包有关的结论,研究了帧中继不同类型业务发送优先级的对应关系和工作机制,提出通过有效限速控制流量和设置差别化的发送优先级提高业务服务质量的解决方案,在不改变原有方案的情况下,顺利解决了工程应用中出现的问题。实际应用效果表明,在高带宽利用率条件下,基于限速策略和区分优先级的解决措施能够有效防止不同传输链路间业务相互影响,确保重要数据稳定可靠地传输。如何进一步提高帧中继业务间的隔离性能是需要继续研究的方向。
[1]林习良,蒋宝琴.768kbps高速数据传输异常分析[J].无线电通信技术,2007,33(1):42 -45.LIN Xiliang,JIANG Baoqin.Analysis of Abnormity in 768kbps High Speed Data Transmission[J].Radio Communications Technology,2007,33(1):42 -45.(in Chinese)
[2]李康,陈雪军,赵乾宏.航天通信IP网组播常见故障解决方法[J].遥测遥控,2012,33(2):58-61.LI Kang,CHEN Xuejun,ZHAO Qianhong.Methods to Solve Familiar Multicast Faults of Spaceflight Communication IP Network[J].Journal of Telemetry,Tracking and Command,2012,33(2):58 -61.(in Chinese)
[3]段惠芬,王华,刘焕敏.试验IP网故障分析策略及方法应用[J].飞行器测控学报,2012,31(4):71 -74.DUAN Huifen,WANG Hua,LIU Huanmin.Strategy and Methods for Fault Analysis for Experiment Mission IP Networks[J].Journal of Spacecraft TT&C Technology,2012,31(4):71 -74.(in Chinese)
[4]刘喜作,周晶,梁德清.基于UDP的大数据包可靠传输[J].电讯技术,2012,52(1):96 -99.LIU Xizuo,ZHOU Jing,LIANG Deqing.Huge Data Blocks Transmission Based on UDP[J].Telecommu nication Engineering,2012,52(1):96 -99.(in Chinese)
[5]Nortel Networks.Multiservice Switch 7400/15000 /20000 Operations:Trunking[M].Providence,Canada:Nortel Networks,2004.
[6]李立.TCP协议在卫星通信系统中性能改进研究[D].长沙:国防科学技术大学,2008:8-9.LI Li.Performance Improving Research of TCP in Satellite Communication Systems[D].Changsha:National University of Defense Technology,2008:8 -9.(in Chinese)
[7]顾尚杰,薛质.计算机通信网基础[M].北京:电子工业出版社,2000:22-23.GU Shangjie,XUE Zhi.Fundamentals of Computer Communication Networks[M].Beijing:Publishing House of Electronics Industry,2000:22 -23.(in Chinese)
[8]代玉梅,马黎.帧中继网络拥塞控制方法探讨[J].电子测试,2013(9):66-68.DAI Yumei,MA Li.Research on Congestion Control of Frame Relay Network[J].Electronic Test,2013(9):66-68.(in Chinese)
[9]Nortel Networks.Multiservice Switch 7400/15000 /20000 Frame Relay Technology Fundamentals[M].Providence,Canada:Nortel Networks,2004.