王鹏 薛凌云
中国移动通信集团江苏有限公司
4G数据业务、VOLTE话音业务、互联网视频等业务对时延要求越来越高,传输系统对时延的影响也越来越凸显,优化和提升传输系统时延是改善业务感知的重要手段。
产生原因:
光信号在光纤中的传播速度比在真空中慢,一般按照每毫秒200km计算。
解决方案:
对于因光缆传输距离过长引起的时延问题,需在网络设计时,优化光缆路由组织,选取短路径光缆进行信号传输。
1.2.1 处理时延
产生原因:
(1)路由器、交换机等网络设备内部的处理时延一般为2 ~ 20us;
(2)小型设备时延低,报文进入设备后经过一次处理发送出去,如低端千兆交换机的典型时延为2~3us;
(3)大型设备时延高,报文需要经过入口板(Ingress card)、交换板(fabric crossbar)、出口板等几次处理,处理流程更复杂,典型时延10~20us;
(4)SDH、DDN等时分复用传输设备的处理时延,一般为n×125us,不同设备取值不同,典型值是3×125us=375us。
解决方案:
硬件处理时长都很小,如果发现经过每个硬件时延过大,可以通过替换单板来解决。
1.2.2 发送时延
产生原因:
数据移出设备缓冲区所花费的时间,与线路带宽和报文大小相关,例如:10GE线路上发送一个1538Byte的报文,1538×10/10E9 = 1.538E-6秒,也就是1.5us。如果换成GE线路,则为15us。
解决方案:
如果是由于发送端存在过大的时延,可以换成大带宽的线路解决。
1.2.3 报文排队时延
产生原因:
(1)由于线路繁忙,报文必须在网络设备(路由器、交换机)中排队等待;
(2)路由器的缓冲区大一些,最大排队等待时间也比较大(200ms),以太网交换机小得多(<1ms);
(3)这个时间不是固定的,与网络繁忙程度相关。网络负载比较轻的时候,不需要排队,无排队时延。负载较重时,排队则可能时延很大(几十到几百毫秒);
(4)时分复用的SDH网络设备无排队等待时间。
解决方案:
对于带宽不足,存在拥塞使得时延过大的情况,可以通过扩容带宽,或者配置QOS使得对时延敏感的报文优先通过。
产生原因:
(1)重传时延
当网络因为负载太重出现丢包的时候,TCP协议发送端在超过重传超时时限(RTO,retransmission timeout)还没有收到接收端的ACK时,会重传丢失的报文。多数操作系统的TCP/IP协议栈的实现里面RTO的最小值是200ms。
因此,一旦发生报文丢失,最少会引入200ms的时延。
(2)两端处理时延
从网卡收到报文到发出中断之间要一定的时间(典型值为100us)。最近比较新的网卡芯片会在收到报文之后延迟一段时间再产生中断,以使一次中断能够处理更多报文,减少中断保护和恢复现场产生的开销。
从中断服务程序、运行结束到应用程序收到报文并开始处理,任务切换需要一定时间(负载较重的服务器典型值为1ms左右)。
解决方案:
重传引起的时延问题比较复杂,与协议、操作系统、下载软件及配置等密切相关,本文以FTP为例进行说明,详见下文。
某网络在LTE开局测试中,HQ1站点和B 站点的下载和上行速率都没有达标。
图1 FTP问题组网示意图
排查组网:两个站点经过的公共路径和设备都是华为OSN3500和 LAN Switch1。
带宽配置:在OSN3500EGS4单板上绑定了一个VC4的带宽,但上载速率最大只能到28M,下载速率只能到40M左右。排查OSN3500上没有误码性能记录,查看RMON流量统计,流量也没有明显超过带宽,也没有丢包的记录。客户要求下载带宽要到100M。
FTP下载是基于TCP的运用,TCP的吞吐率主要受发送窗口大小、往返时延RTT、丢包率这三个因素影响。
Lambda(吞吐量)=n(未决请求的数量)/t(响应时间),在FTP Server端和PC Client端发送窗口设置为最大512KBytes的情况下,要达到峰值100Mbit/s的吞吐率,RTT时延最大不得超过40.5ms(=512×8bit/100Mbit/s)
测试网络时延,从Lanswitch1 ping站点,时延都是5~6ms左右。从Lanswitch1 ping HQ1,时延也是在几个ms。从Lanswitch2 ping的站点的时延也是在10ms左右。
但从Lanswitch2通过EPC(核心网的网元)ping Lanswitch1,时延达50ms~150ms,且不稳定。很明显问题发生在EPC网元,排查出问题在于核心网的BUG,可通过更新版本解决。
除了丢包等因素,时延是影响FTP吞吐率的重要指标。在时延问题定位上可以通过分段ping定位,找出问题所在。
某客户网络,客户反馈时延过大使得下游终端客户业务受到影响。
(1)梳理业务拓扑图,在P1与P2路由器之间都是通过波分OSN8800传输,其中BC之间距离长达1155km,客户反馈经过PE1和PE2承载的业务时延过大,且时延抖动过大。
(2)时延过大,且抖动范围很大,前面分析指明,传输的时延主要有光纤传输时延、中间节点产生的时延,其中设备产生的处理和转发时延都是微秒级的,排队时延在于数据单板处理中配置QOS,缓存排查的时延。排查传输单板和业务配置,单板为TTX的OTU单板,业务为简单透传,没有配置QOS和shaping。
图2 承载网络示意图
(3)路径时延指的是从源到宿的时间,测量过程主要是对开销的处理。时延测量是测量ODUk端到端的双向时延,如果路径上存在ODUk SNCP保护,测量结果为当前工作路径时延。
时延测量依赖客户侧有光信号输入。测量过程自动在源端OTU单板下插PM层的时延测量开销字节,中间网元透传,宿端环回开销字节。在测量结束之后自动恢复相关配置。
图3 路径时延测量原理图
(4)P1与P2之间的距离为1155km,单向测量时延为6.3ms左右,与理论6ms差不多(加上设备单板的时延,更与理论值相符),且多次测量时延结果稳定。PE1与P1同站,PE1 ping P1时延都是在1ms内; P2同站PE2,PE2 ping P2时延也是在1ms内。但PE1 ping PE2时延很大,且有明显抖动。
图4 现网路径PE1~PE2间E2E路径时延ping测结果
最后通过排查定位,发现PE2路由器某单板芯片损坏,替换单板后问题解决。
定界是否是传输带来的时延,最好的方法是撇开其他设备测量传输时延。该例子提供了U2000,可以提供免仪表的测试方法。
某客户网络某链路上报告警MPLS_TUNNEL_Excess。
(1)连续3个CV/FFD周期收到大于5个正确的CV/FFD报文时会出现MPLS_TUNNEL_Excess告警;
(2)首先使用Tunnel LSP ping测试Tunnel连通性正常;
(3)检查Tunnel 源宿端 OAM属性均为 “自适应 FFD 3.3ms” ,不存在两端不一致情况;
(4)检查源宿端是否有相同源节点ID和Tunnel ID情况,检查结果表明Tunnel配置正常;
(5)以上检查都正常,但是Tunnel告警不断上报,表明设备确实在3个FFD周期也就是10ms内收到了多于5个的FFD OAM报文。怀疑该Tunnel 传输的报文有流量拥塞或延迟过大情况;
(6)检查同路由的Tunnel从未上报异常告警,经过的站点也无FLOW_OVER告警;
(7)检查Tunnel及其承载的PWE3业务 Qos发现,Tunnel和PWE3都设置了保证带宽和峰值带宽为2M bit/s,与客户沟通将Tunnel Qos都改为无限制,发现MPLS_TUNNEL_Excess告警消除后不再上报;
(8)与客户核实,该TUNNEL承载的PWE3大客户业务为2M bit/s带宽,最近由于该业务新下挂视频,带宽使用率较高。由于该Tunnel只承载一条PWE3,所以做业务时顺带把Tunnel也做了限速。
(1)为验证是Tunnel限速导致的MPLS_TUNNEL_Excess告警上报。与客户沟通,在申请时间对限速和不限速时的Tunnel性能进行测试比对;
(2)Tunnel保证带宽和峰值带宽限速为2M bit/s时,性能情况为:Tunnel丢包率:0.98%;Tunnel带宽利用率:65.17%;Tunnel时延和时延抖动最大值:6.6ms左右。这说明该Tunnel在限速时发生了拥塞,时延达到了2个FFD周期。这导致有些设备在3个FFD周期只收到1个OAM报文,但是有些设备在3个FFD周期收到大于5个OAM报文,从而引起MPLS_TUNNEL_Excess频繁上报。
时延是指一个报文或分组从网络的一端传送到另一端所需要的时间。它包括了发送时延、传播时延、处理时延、排队时延(时延=发送时延+传播时延+处理时延+排队时延)。在传输距离长的时候主要考虑传输时延,在IP业务中需要考虑业务转发处理中带来的时延。定界是否为传输问题的最好办法是通过分段ping测试,传输网络和网管系统能够提供免仪表的路径时延测试功能、tunnel路径和业务的TP-Assist测试时延功能。在不影响业务的情况下测试传输网络的时延,解决好传输时延问题,有助于直接改善业务性能。