网络性能分析技术研究

2016-07-02 03:33杨春丽北京电信规划设计院有限公司工程师张北京电信规划设计院有限公司工程师马媛媛北京电信规划设计院有限公司工程师
信息通信技术与政策 2016年3期

杨春丽 北京电信规划设计院有限公司工程师张 亮 北京电信规划设计院有限公司工程师马媛媛 北京电信规划设计院有限公司工程师



网络性能分析技术研究

杨春丽北京电信规划设计院有限公司工程师
张亮北京电信规划设计院有限公司工程师
马媛媛北京电信规划设计院有限公司工程师

摘要:在网络IP化时代,网络的故障诊断和性能质量评价成为越来越突出的问题,网络故障诊断定位时间长、难度大,导致维护工作量大、效率低,本文分析了网络性能分析的必要性,探讨了网络性能分析的方法和技术及其今后可能的发展方向。

关键词:网络性能;仿真流;业务流;网络质量

1 引言

随着IP网络的发展,运营商都建设多张IP网络。比如,中国联通建设了IPA网、IP B网、China169网、企业内网,每张网都承载着不同的业务。以联通企业内网为例,网络承载着视频、BSS、MSS、OSS、cBSS等业务,而随着业务规模的发展和集中,业务对网络质量的要求越来越严格,短暂的故障有可能会导致严重的业务中断,影响企业的生产任务和客户满意度,这就要求网络具有性能分析手段,不仅在出现故障的时候能够快速定位和修复故障,更能根据检测结果预测网络可能出现的问题,并在重大网络故障出现之前解决问题,减少网络故障发生率。

网络性能分析技术可以检测分析出网络的时延、抖动、丢包率、带宽占用情况、路由情况等影响网络业务质量的因素,并快速定位网络故障,找出影响网络质量或可能影响网络质量的问题,同时作为网络服务者,对客户或者业务部门提供准确的网络质量参数,以证明提供的网络质量满足规定和要求,因此本文主要针对网络性能分析技术进行研究和阐述,探索网络性能分析的发展方向。

2 网络性能分析实现方式

目前的网络性能分析实现方式包括以下几种:

(1)基于仿真流的间接测量方式

基于仿真流的间接测量方式是指通过在网络上插入检测报文,计算检测报文的丢包率、延时等性能来间接模拟承载业务的实际性能,这种方式检测的不是实际的业务流,存在仿真业务和实际业务不同路径等问题,不能真实反映网络业务的实际性能。

主流技术如PING、TWAMP、RFC2544、NQA等,其特点是容易部署,但是精度偏低(10-3),而且由于是基于仿真流,往往统计结果会出现偏差,如业务流呈现少量丢包而仿真流无丢包时显示结果为无丢包。

(2)基于业务流的直接测量方式

基于业务流的直接测量方式包括两种方式:

●基于实际业务流进行测量

通过直接测量业务报文的实际收发情况,计算得到实际业务流的丢包率、时延等性能指标。

主流技术如Y.1731、MPLS-TP OAM、IP PM等,其特点是精度高(10-6),但是存在难于部署的问题,其应用场景局限性高,Y.1731仅针对二层网络,MPLS-TP OAM仅针对MPLS-TP网络。

●基于染色的业务流进行测量

在实际业务流的报文中加入部分字段,对IP报文头中的保留字段填充0或者1实现报文的染色,实现基于实际业务报文的高精度性能统计功能。

主流技术如华为的IP FPM技术,IP FPM基于IP业务流的性能统计,对多点间业务流(MP2MP)进行直接测量,采用特征分组、时间同步等方法保证准确性,集中计算网络的丢包、业务路径时延等性能指标的测量方法,统计精度可达10-6。

3 网络性能分析技术

3.1基于仿真流的间接测量技术

3.1.1 PING

PING(Packet Internet Groper):因特网包探索器,用于测试网络连接量的程序,PING是使用ICMP(Internet Control MessageProtocol,互联网控制报文协议)测试数据包在本端和指定目的端之间的往返时间的,Ping发送一个ICMP(Internet Control Messages Protocol,因特网信报控制协议)回声请求消息给目的地并报告是否收到所希望的ICMPecho(ICMP回声应答)。利用“PING”命令可以检查网络是否连通,可以很好地帮助分析和判定网络故障。

3.1.2 NQA

NQA特性通过发送测试报文,对网络性能或服务质量进行分析,为用户提供准确的网络性能参数,如时延抖动、HTTP的总时延、通过DHCP获取IP地址的时延、TCP连接时延、FTP连接时延和文件传输速率等。利用NQA的测试结果,用户可以:

●及时了解网络的性能状况,针对不同的网络性能,进行相应的处理。

●对网络故障进行诊断和定位。

NQA具有以下几个特点:

●支持多种测试类型

●支持多测试组并发

NQA模块支持多个测试组并发,用户可以根据需求手工配置并发个数。但对于DHCP测试,同一时刻只允许有一个测试组进行测试。

●支持联动功能

联动功能是指通过建立联动项,对当前所在测试组中的探测进行监测,当连续探测失败次数达到一定数目时,就触发其他模块联动,联动功能由应用模块、Track模块和监测功能模块三部分组成。Track模块位于应用模块和NQA之间,当监测项的状态发生变化时,监测功能模块通知Track模块,再由Track模块通知应用模块进行相应的处理,从而实现联动(见图1)。

图1 联动功能的实现

以静态路由为例,用户配置了一条静态路由,下一跳为A.B.C.D,如果A.B.C.D可达,那么该静态路由有效;如果A.B.C.D不可达,则该静态路由无效。通过在NQA、Track模块和应用模块之间建立联动,可以实现静态路由有效性的实时判断。如果NQA发现A.B.C.D不可达,NQA将通过Track模块通知静态路由模块,静态路由模块可以据此判断该静态路由项无效。

3.1.3 TWAMP

TWAMP是IETF标准IPPM工作组定义的针对IP网络性能的测量协议,定义了一种测量网络中任意两台支持这项标准的设备之间往返IP性能的灵活方法,TWAMP使用UDP数据包测量网络双向延迟,在测量之前,使用TCP协议在主机之间控制测量会话,协商UDP端口号以及是否对传输中的数据进行加密等。TWAMP定义了两组协议:一组用于建立性能测量会话,叫做控制协议;另一组用于性能测量探测器的传送和接收。控制协议使终端可以协商和启动性能测量会话。性能测量探测器的传送和接收协议定义了测量往返性能所需要的数据包格式。

在传统的性能统计工具中,普遍采用的统计方法有:主动发送探帧方式、在业务流中主动插入探帧方式、将业务流染色分段方式。但这几种统计方式在呈现统计结果时有一个共同点就是需要主机承担发起统计功能,并负责统计数据的生成维护,用户需要查看整个网络的统计性能时,通常需要网管来托管多台主机设备,并由网管适配来呈现统计结果。这种方式的问题在于网络内可能没有网管,或者网管设备能力有限,无法管理足够数量的主机,而且通过网管来部署统计业务时,对网管设备也提出了更高的要求,这些情况对于用户希望快速部署/撤销统计业务、获取统计结果的需求背道而驰。而TWAMP主要功能是IP网络的双向性能统计,采取直接统计方式,通过TWAMP的使用和部署,企业可以在避免花巨资部署采用专有协议性能管理系统的同时,有效地测量网络在各个位置上的IP性能。

首先我们必须要清楚的认识到,校园文化的主体是师生。准确来说,校园文化的形成以及发展,就是依靠着全体师生,校园文化即是师生的精神面貌、价值取向和行为理念。校园文化的具体表现,也是通过师生在日常的行为与活动中体现的。那么我们由此可以得出,如果我们要建设校园文化,可以通过对师生进行教育与培养,通过他们的改变,对价值取向的正确认知、对思想政治的正确认知,进而来改变校园文化。校园文化产生于师生之间,但是也是影响师生的整体素质水平的重要因素。良好的校园文化能够帮助师生对学术进行研究,对工作进行探讨,将整体的素质道德水平提升到一个较高的层次。

3.1.4 RFC2544

RFC2544(Benchmarking Methodology for Network InterconnectDevices)提供了一个对网络设备测试的基准,规定了一系列的测试过程和方法,使得服务提供商和用户间可以在同一个基准下对测试的实施和结果达成共识。RFC2544标准要求对一系列的帧长(64、128、256、512、768、1024、1280、1518字节)在一定的时间内按一定的数目进行测试。其主要测试项有吞吐率(Throughput)测试、延时(Latency)测试、帧丢失(Frame LossRate)测试和背靠背测试(BacktoBackFrames),此外还规定了系统恢复(Systemrecovery)测试和复位测试(Reset)。RFC2544基于UDP实现,缺省情况下,UDP报文的目的端口号是7,源端口号是0xC020。

目前已有很多方法检测网络互连设备的性能,例如二层网络可以使用Y.1731,三层网络可以使用IP FPM,但是这类直接测量技术需要网络中已经存在业务流量,因此在业务部署前检测设备性能时,需要通过测试仪解决流量收发问题,可部署性差。

RFC2544测试是在业务部署之前,采用自发包形式,模拟业务流量来完成网络性能的测试,提供网络质量的统计信息,从而解决上述测试方法在没有业务流量就无法进行测试统计的难题。

依据RFC2544实现,采用标准的测试方法和步骤,可方便不同厂商进行性能对比。

总的来说,基于仿真流的测量技术通过模拟流量进行检测,其检测结果与目标业务流的真实质量存在偏差。其次,这些技术只能对粗粒度的管道进行模拟检测,对于转发行为复杂多变的IP网络而言,细粒度流量之间可能存在明显不同的转发行为,显然这些手段无法获取准确的IP流质量。另外,都只是用于端对端的检测,缺乏逐跳检测能力,虽然可以通过方案包装,以多个端到端实例来进行逐跳模拟检测,但难以在P设备之间让检测报文模拟真实报文的转发行为,因此检测结果可能严重失真。

3.2基于实际业务流的直接测量技术

3.2.1 Y.1731

Y.1731用于在二层网络中检测链路和故障定位,主要有两大功能,故障管理和性能监控,用于性能检测的OAM功能可以测量不同的性能参数,性能参数是针对点到点的ETH连接定义的,性能参数包括:

●帧丢失率:帧丢失率定义为用百分数表示的未传递的服务帧数量除以时间间隔T内服务帧总数的比率,未传递的服务帧数量是一个点到点ETH连接中到达入口ETH流节点的服务帧数量和传递到出口ETH流节点服务帧数量之差。

●帧时延:帧的第一个比特由源节点开始传输到环回帧的最后一个比特由同一源节点接收时为止所经历的时间,帧的环回由该帧的目的地节点执行。

●帧时延变化:帧时延变换是对一对服务帧之间帧时延改变的度量。

性能参数应用于服务帧,服务帧是那些符合约定的带宽特征一致性水平的数据帧,Y.1731是对实际业务流进行检测的,也可以分层逐段,但只适用于二层网络,存在适用场景上的重大限制。

3.2.2 MPLS-TPOAM技术

MPLS-TPOAM主要有3个功能,故障管理、性能管理和保护倒换。故障管理OAM可以有效地定位故障,包括:连续性检测、高警惕信号、远端缺陷指示、环回链路检测、锁定、测试;性能管理OAM功能是用来维护网络服务质量和提高网络运营效率的,包括:帧丢失测量、时延测量;其他OAM功能包括保护倒换功能和其他维护信息的传递。MPLS-TPOAM只能适用于MPLS网络中,且是管道(NNI2NNI)的测量。

3.2.3 IPPM

IPPM(IP Performance Metrics)是IETF(Intemet Engineering Task Force)成立的专门来制定IP网络流量测量分析相关的工作组。IPPM工作组一直致力于网络流量测量分析的标准制定,提出了多个RFC(Request for Comments)和互联网草案(Internet-Drafts),涉及到网络流量测量分析的各个方面,包括连接性、单向时延和丢包、双向时延和丢包、时延抖动、批量传输能力、链路带宽能力等,IP PM是针对点到点进行网络性能分析和测量的。

总的来说,基于业务流的测量技术是通过业务流量进行检测的,其检测结果与实际业务流的真实质量一致,精度高,而且不会对网络造成额外的负担,但是存在难于部署的问题,其应用场景局限性高,Y.1731仅针对二层网络,MPLS-TP OAM仅针对MPLS-TP网络。其次,由于是针对点到点的业务流和路径,不支持多点到多点的方式,不能解决多路径、多方向流条件下基于网络的测量。

3.3基于染色业务流的直接测量技术

3.3.1 IP FPM

IP FPM利用报文染色技术进行性能统计,对IP报文头中的保留字段填充0或者1实现报文的染色,从而实现了基于业务报文的高精度(10-6)性能统计功能,包括丢包、时延和抖动(见图2)。

IPFPM的基本原理简单来说,就是报文数守恒定律。在目标流的始发点对报文进行识别、染色,在目标流流经的节点及终点进行染色报文的识别、统计,从而根据各节点的计数及时戳在沿途各节点的变化情况,计算出时延、丢包以及故障的引入点。

如图3所示,一个承载网络存在网络边界,对于穿越网络的流量,一定是从某些边界进入网络的,图中网络设备Rn的Ingress方向接口,在该接口进入网络的报文数记为PI(n);并从某些边界离开网络,图中网络设备Rn的Egress接口方向,在该接口离开网络的报文数记为PE(n)。

在一个测量周期T内,所有进入网络的穿越流量(Ingress之和:PI=PI(1)+PI(2)+PI(3)…PI(n)与离开网络的流量(Egress之和:PE=PE(1)+PE(2)+PE(3)…PE (n)之间的差,即是网络在该时间内的丢包特性。丢包测量即为测量该时间内各边界的PI与PE之和的差。

在指定的两个节点间,业务报文进入网络(Ingress方向)的时间与离开网络(Egress方向)的时间之间的差,即为业务报文网络时延。时延测量即为测量特定业务报文进入网络的时间,与该报文离开网络的时间之间的差。

与主动测量方法不一样,IPFPM是对业务报文进行直接标识和检测的测量,这样能得到更高的精度。

图2 IPFPM对IP报文头中的保留字段进行染色

图3 IPFPM测量原理图

检测业务报文范围的定义,可以根据SIP、DIP、PT、DSCP、sPort、dPort 6个维度,组合可以包括:二元组(SIP,DIP)、三元组(SIP,DIP,PT)、四元组(SIP,DIP,PT,DSCP)、五元组(SIP,DIP,PT,sPort,dPort)等,以上组合中,还需要能包含掩码(按照网段定义)。组合越长可以监测的数据流就越细。

IPFPM有如下特点:

(1)高精度:基于业务报文进行网络性能的统计,精度可达10-6。

(2)灵活部署:可以识别基于IP报文的所有流量,包括Natve Eth、Native IP、L2VPN、L3VPN等,实现了全业务OAM技术的统一管理。

(3)故障定位精准:检测的覆盖范围足够广,能够界定网络故障区段,另外,检测流的粒度灵活可调,满足粗粒度的常态化监控以及故障情况下的精确定位。

由于IPFPM的染色和统计计数是基于真实业务进行的,因此必须叠加在正常的转发流程中,这就会导致叠加在正常转发流程中的检测行为需要消耗转发资源,会对性能构成一定影响。其次,逐跳的IPFPM检测需要在流量途径的全部节点上配置,配置前提就是先把流量路径找出来。IP/MPLS网络中,报文的转发是每一跳节点基于本地路由选择转发路径的,网络本身并不存在一个全局性的网元来感知和维护流量的路径信息。目前的实现方式是通过网管对网元进行逐跳的查表实现,但由于网管的查表行为与目标网络的具体方案紧密耦合,比如HVPN场景下和Native IP场景下需要查找的表项都是完全不同的,因此只能对各个典型场景进行逐个适配。

4 结束语

网络性能分析可以实现端到端的网络性能监控和端到端的网络性能分析及相关的故障分析流程,快速确认故障点并定位责任部门,及时解决网络性能问题,提高运行效率,减少或避免有关“网络不可用”、“网络太慢”等用户和部门的投诉,给网络提供专业、系统的优化依据,提升整网的运营和管理能力,改善网络的整体服务质量。

随着网络技术的不断发展,网络管理和运维也会随之带来更多的困难,随之带来的网络性能分析技术手段也在不断的发展,各种技术方案各有千秋、所长,应结合实际情况选择最合适的技术方案,在未来的发展中,适应性强并且可以快速有效的部署将成为网络性能分析技术面临的巨大挑战。

参考文献

[1]华为.FPM特性介绍[OL]. http://e.huawei.com/cn/videos/ cn/2015/201509241606.

[2]Bonald,T.网络性能分析原理与应用[M].王玲芳,译.北京:机械工业出版社,2013.

[3]房秉毅,张云勇,陈清金,贾兴华.云计算网络虚拟化技术[J].信息通信技术. 2011,01.

[4]华为.IP FPM本质及产生背景[OL].http://support.huawei. com/huaweiconnect/forum.php?mod=viewthread&tid=46377. [5]H3C.NQA技术白皮书[OL].http://wenku.baidu.com/link?url= 9BReLN7X2ldtjmxv1Ff9eWj943cUY4dUC2dByveWSc1YW_ E5rhqWJUZ83IC4vpALdl0_fwXjuAeyteR8Hv5YFi48zhMRS.

Research on network performance analysis technology

Yang Chunli, Zhang Liang, Ma Yuanyuan

Abstract:In the IP network era, network troubleshooting and performance evaluation become increasingly prominent issue, network troubleshooting and trouble locating is long time and difficulty, maintenance work is low efficiency. This paper analyzes the necessity of network performance analysis; discussed the methods and techniques of network performance analysis; and possible future development direction of network performance analysis technology.

Key words:network performance; simulation flow; traffic flow; network quality

收稿日期:(2016-02-18)