卢灿举
(电子工程学院,安徽 合肥 230037)
基于网络流量的特征分析
卢灿举
(电子工程学院,安徽合肥230037)
网络流量在互联网发展不断深化的背景下表现出了极为重要的意义,也是对网络体系进行切入理解的重要渠道,还是设计、规划和管理网络的直接凭据。在多尺度下对网络流量的特征进行了针对性探究,以期对相关工作起到一定参考作用。
网络流量;多尺度;特征
网络流量特征分析具有重要价值,是多项工作的支撑基础。从不同的尺度条件下对网络流量进行分析,都能发现其还存在一定缺陷,对相关工作存在一定制约。因此,需要对相关的分析工作进行革新,可以通过多阶段应用层流量在线识别、Hurst指数叠加效应以及大尺度流量动态特征等渠道对网络流量从不同的尺度展开分析研究。只有依靠合理的手段,才能明确网络流量的基本特征,进而完善相关工作。
由于网络系统的设计和网络流量的特征具有直接关联,那么对网络流量进行研究,其实质也是对网络系统构建的研究。但是,由于网络系统存在一定区别,在不同尺度下有着不同的要求和限制,这也就要求相关的研究工作应该在多尺度的环境中进行,从不同的角度对网络流量的特征进行研究,具有不同的作用。
研究网络流量,首先需要明确测量尺度的定义,由于流量特征研究的直接对象是数据包,那么其对应的测量尺度应该从数据包的层面进行制定。通过相关研究显示,数据包可以通过不同的表现形式达到序列,因此可以通过两种形式对网络特征分析的尺度进行界定,一种是数据包的个数,一般可以记为#pkt,另一种是数据包之间的时间间隔,一般记为#time。如果尺度标准是#pkt,在对连续的s个数据包进行汇聚之后,可以得到一个全新的序列,s就是相应的测量尺度。如果将时间间隔作为尺度标准,在固定的间隔t内可以获取一定的汇聚数据包,进而得到相关的新序列,这时t就是对应的尺度标准。
在小尺度条件下,对于全新的应用层业务,网络流量的特征分析时比较缺少的。尤其是相关研究证明在比较宽的时间尺度范围内网络流量特征具有很高的相似性之后,对小尺度下的网络流量特征研究就逐渐缩减了。但是,根据网络流量在网络设计不断发展中所表现出的实际情况看,在小尺度条件下对网络流量进行研究其实更具价值。
在大尺度条件下,网络流量的研究工作开展较多,但是结合网络发展的速度和规模而言,大尺度条件下的网络流量研究尚显不够,研究内容也不全面。在网络应用不断复杂化的情况下,大尺度条件的网络流量特征研究遭遇了更多的阻碍,更加难以得出具有代表性的研究结论,无法统一具体的研究成果。比如,高速链路的研究成果在低速链路中不一定适合,大规模网络的经验理论也未必符合小规模网络的实情,企业网的结论也不一定符合校园网。因此,需要在多尺度下对网络流量的特征展开更加全面的研究,以促进各方面的研究工作。
2.1多阶段应用层流量识别
各种新业务的出现对网络的发展起到了积极的促进作用,也对网络流量的变化和构成产生了不小的冲击。在多阶段应用层进行流量识别,其主要包括了4种技术手段,分别是静态端口识别、数据包载荷识别、主机连接识别以及统计模型流量识别。
静态端口识别主要是对发生数据传输通信的双方进行流量识别,如果发生通信的两方是通过缺省端口进行的,那么就可以认为其使用了应用连接,其对应的流量就是该应用的流量。
数据包载荷识别主要是对存在于数据包中的特殊字符串进行判定,以此识别对应的P2P(Peer to Peer)对等网络流量。在特殊字符串和P2P应用的某些特征能够形成匹配时,就可以判定该数据包是通过P2P应用形成的,其对应的连接也可以被认定为P2P连接。常用的P2P协议特殊字符串主要有5种,分别是BitTorrent,Kazaa,DirectConnect,eDonkey以及Gnutella等。基于这5种常用的字符串形式,就可以对数据包载荷中的大部分特殊字符串进行识别,从而判定其性质。
主机连接识别主要是对流关系进行分析,以此对主机连接所表征出的具体协议类型进行判定。基于P2P应用的连接特点,主机连接识别被提出了两种启发方式,进而实现从3个层面对网络流量进行深度识别,即从应用层次、功能层次和社会层次这3个方面识别网络流量的具体特征。
统计模型流量识别是在Bayes理论基础上提出的,但是这种方法目前仅仅用在分类研究上,还没有在实际网络的监测工作中进行应用。根据相关实践证明,统计模型流量识别可以准确得到流级66%,字节级84%的准确度。如果对网络流量的属性进行预先处理,对部分低区分度的属性进行剔除,那么可以进一步将准确度提升到93%以上。值得注意的是,运用该方法时应该注意两个基本点,一是区分度之间必须具有良好的独立性,二是应该具有一个较大的trace数据。
2.2小尺度下的Hurst指数叠加效应
在小尺度下对网络流量特征的研究,很长一段时间都处于空白状态,因此,需要加强小尺度下的网络流量特征分析,以便对不同应用层业务所产生的流量进行辨识。Hurst指数叠加效应就是在小尺度条件下研究网络流量特征的一种有效手段,其相关概念提出于20世纪60年代,具体内涵为在空间或者时间尺度上,对随机过程进行缩放,某些过程不会产生变化,其表现出了长相关的特点。从客观角度看,并不存在严格意义上的自相似,但是在通信领域对自相似存在多种不同的定义,这些定义在不同场合所表征的结果是不一样的。利用Hurst指数对网络流量特征进行分析,需要明确其基本的估计方式,严格说来,自相似是一种属于主观世界的产物,对客观世界的规律和认知不存在较大意义。所以,虽然Hurst指数具有数学上的定义和实际形式,但是想要通过它辨识网络流量的特征还具有一定的困难。基于Hurst指数的网络流量特征分析手段可以分为3种,一是时域分析,二是频域分析,三是小波域分析。
而对于Hurst指数估计手段的准确性和实用性,还需通过一定的手段进行验证,比如随机序列、模型自相似序列以及被破坏的自相似序列等。随机序列的基础是短相关,其对应的估计值为0.5,通过泊松分布、几何分布、指数分布等手段进行考察,明确估计手段的适用性。模型化自相似序列主要包括了分形高斯噪声(Fractal Gauss Noise,FGN),分数布朗运动(Fractional Brownian Motion,FBM)和自相似分模(Fractional Auto Regressive Integrated Moving,FARIM)等模型,其都属于长相关,具有对应的Hurst指数。其中FGN过程平稳,且长相关。FBM过程非平稳,属于自相似。被破坏的自相似序列是进行短相关加噪处理和周期化处理,这是因为网络流量表现出了短相关和周期性的特点,据此通过破坏性的自相似序列对Hurst指数的准确性和实用性进行判定。
2.3大尺度条件下的网络流量特征
虽然大尺度条件下的网络流量特征研究工作展开较多,但是一直存在不全面的问题,部分研究也不够深入,因此,必须在大尺度环境下加强对网络流量特征的分析,以便促进相关工作。在大尺度环境下,网络流量表现出了一些具体的特征,比如普遍存在非对称性、出入境差异性、流量速率变化以及数据包大小等。
普遍存在非对称性的结论是在相关研究结果的基础上得出的,其具体表现在以下几个方面。一是数据包和字节在出入境方向上存在变化和分布不对称的特征,二是数据包的大小也表现出不对称的特点。这两个方面的不对称性,直接导致网络流量整体表现出不对称性。但是其并非完全不对称,也存在极少数对称的情况,因此只能判定其不对称性是普遍存在,而非绝对存在。
相对平稳区拉长是网络流量在大尺度环境下表现出的另一个特点,其相关协议在出入境方向上可以对比特率和数据包速率的变化趋势通过曲线表示出来,根据相关研究表明,虽然比特率和数据包速率在某种程度上表现出了整体相似的流量变化规律,但是出境方向却是明显小于入境方向的。不仅如此,在不同方向上还表现出了极为突出的特性趋势,即网络流量的变化情况每天基本上处于相同的情况,用户数据报协议(User Datagram Protocol,UDP)和传输控制协议(Transmission Control Protocol,TCP)也存在较为明显的天特性。
对网络流量的特征进行研究,可以在网络发展中起到重要的推动效果。但是,当前的网络流量特征研究在不少方面都存在一定缺陷。因此,需要结合实际,从多阶段、小尺度和大尺度等方面对网络流量的特征作出深入分析,以便促进相关工作发展。
[1]阳爱民,周咏梅,邓河.一种网络流量分类特征的产生及选择方法[J].山东大学学报(工学版),2010(5):1-7.
[2]贺伟凇,胡光岷.大尺度IP网络流量异常特征的多时间序列数据挖掘方法[J].计算机应用研究,2011(3):1130-1132,1154.
Analysis on feature of network traffic
Lu Canju
(Electronic Eengineering Institute, Hefei 230037, China)
Network traffic under the background of the Internet deepening development shows very important significance and is the important channel to understand the network system, as well as the direct credential of network design, planning and management. This paper pertinently explores the characteristic of network traffic under the multi scale in order to play a certain role in relevant work.
network traffic; multi-scale; feature
卢灿举(1978— ),男,安徽泗县,硕士;研究方向:计算机应用。