汪永斌,谭献海
(西南交通大学 信息科学与技术学院, 成都 611756)
不同于传统的列车通信网络,列车控制与服务网络(TCSN,Traffic Control Service Network)在保证列车控制业务传输的同时,充分考虑应用日益广泛的旅客服务业务,实现列车控制与旅客服务业务流量一体化传输[1]。如果不对旅客服务流量进行监管,大量突发旅客服务流量容易导致网络拥塞,关键控制业务传输需求得不到有效保障,从而严重威胁列车运行安全。为此,对旅客服务流量特性的研究是实现有效监管的前提条件。
2014 年,裴子秀等人利用网络仿真软件OPNET对列车控制业务流量进行仿真,分析列车控制业务的流量特性,发现大部分列车控制业务报文到达时间间隔和报文长度均为常量值,但未涉及对旅客服务业务流量特性的分析[1]。2018 年,赵晋南等人提出针对TCSN 的两级令牌分配监管算法,并使用Matlab对该算法进行仿真验证,但其仿真结果缺乏说服力,主要原因在于仿真实验停留在对旅客服务业务流量特性的传统认知上,未对其流量特性进行全面细致的分析[2]。2018 年,刘力浩等人设计了五元组与DPI技术结合的TCSN 流量识别算法,对业务报文的五元组和载荷特征进行识别,但该识别方法依赖于对已知业务识别特征的预先分析,未考虑业务报文到达时间间隔变化规律等关键特征,对TCSN 业务流量的识别能力较为有限[3]。2019 年,张江楠等人分析即时通信业务的流量特征,重点分析QQ、微信、微博等应用报文的到达时间间隔,结果发现报文间隔时间分布均表现出明显的重尾特性[4]。
现有针对旅客服务业务流量特性的研究或停留在传统泊松过程的认知上,或局限于某种特殊应用。考虑到TCSN 应区分服务网络以及旅客服务业务的特殊性,本文对TCSN 旅客服务业务进行分类,并在此基础上确定各个业务类报文到达时间间隔的数学模型。
国际电信联盟(ITU,International Telecommunication Union)在2002 年制定了因特网业务分类标准,但近年来互联网业务发生了较大变化,该标准不完全适用于当前互联网环境[5]。因此,本文采用华为QoS(Quality of Service)标准作为ITU 标准的补充,将TCSN 中常见旅客服务应用划分为传统互联网应用、即时通信、实时音视频、流媒体、P2P 5 个业务类别[6]。
复杂多变和易突发是旅客服务流量最显著的特性,但是报文到达时间间隔和包长的变化规律是导致上述现象的根本原因[7]。为了实现针对不同旅客服务业务提供有区分的监管服务,对报文到达时间间隔和包长变化规律的研究十分关键,本文重点研究旅客服务业务类报文到达时间间隔的变化规律。
随着信息技术的快速发展,互联网流量表现出不符合传统泊松过程的自相似特性,而重尾特性是流量自相似的重要成因[7]。为此,选用指数分布、幂律(Power-law)分布、Pareto 分布、对数正态(Lognormal)分布、Weibull 分布5 种概率分布作为实验分析模型[8]。
最小二乘法是一种优化方法,通过最小化残差平方和来寻找适合数据的最佳匹配函数及函数参数估计值[9]。本文使用最小二乘法,将旅客服务流量报文到达时间间隔与选用的概率分布模型进行拟合,根据拟合效果确定反映旅客服务报文到达时间间隔变化规律的最佳分布模型及其参数估计值。
可决系数R2是反映模型拟合优度的重要统计量,均方根误差(RMSE,Root Mean Square Error)是衡量估计值和观测值偏差的统计量。R2最适合反映模型拟合程度,但易出现过拟合现象,导致模型泛化能力不强;RMSE 能够在一定程度上降低过拟合风险,但对数值量较小的观测值区分能力不强[4]。为此,综合考虑R2和RMSE 的优缺点,本文采用R2和RMSE 相结合的方法,对旅客服务业务流量到达时间间隔的拟合效果进行评价。
(1)构建旅客服务业务流量数据集,使用Python 工具包pandas 和numpy,完成实验数据的解析和预处理;(2)使用工具包Scipy 生成旅客服务报文到达时间间隔的概率统计值,观察传统互联网、即时通信、流媒体、实时音视频、P2P 业务类报文到达时间间隔概率统计值的图形分布,使用最小二乘法将报文到达时间间隔概率统计值与选用的概率分布模型进行拟合;(3)综合考虑图形拟合结果和拟合评价指标,确定反映各业务类报文到达时间间隔变化规律的最佳分布模型及参数。
考虑到列车旅客上网流量数据涉及用户隐私,实际数据获取较难,本文利用实验室局域网模拟列车旅客上网环境,使用WireShark 收集8 人自2019 年9 月15 日9:30 到17:30 期间产生的所有流量数据,旅客服务业务的流量数据来源见表1。
表1 旅客服务业务流量数据来源
本文收集实验室模拟环境中8 h 的流量数据,并将这些数据与UNB(University of New Brunswick)网络安全实验室开源数据集(ISCX-2017)进行整合[10],将整合获得的流量数据集命名为TP-Traffic,作为本文研究的数据来源。
为研究旅客服务业务报文到达时间间隔的规律,需将获取的报文到达时间间隔转换为概率统计值。以传统互联网业务报文到达时间间隔为例,具体转换过程为:将报文到达时间间隔从小到大进行排序,假设报文到达时间间隔最小值和最大值分别为t1和t2,将整个时间间隔区间t2-t1均分为n个子区间,每个子区间长度T=(t2-t1)/n,报文到达时间间隔落在第i个区间的概率值pi等于落在((i-1) ·T,i·T)之间的记录数ni与整个区间总记录数N的比值,即式(1):
本文将网页浏览、文本文件传输、数据库访问、终端访问、交互式游戏等网络业务归类为传统互联网业务,提取其报文到达时间间隔,按式(1)计算报文到达时间间隔落在每一个子区间的概率值;报文到达时间间隔与对应的概率值如图1 所示,横坐标为报文到达时间间隔(单位:s),纵坐标为横坐标对应概率值的对数表示。由图1 可知,传统互联网业务报文到达时间间隔表现出不同于传统泊松过程的重尾特性。
互联网业务报文到达时间间隔的统计值与概率分布模型的拟合曲线见图2。其中,图2a 是传统互联网业务报文到达时间间隔的完整拟合曲线;将图
图1 传统互联网业务的报文到达时间间隔分布
2a 中横坐标区间[0, 0.6] 与纵坐标区间[0, 0.02]的区域放大,即得到图2b,其横坐标是传统互联网业务以秒为单位的报文到达时间间隔,纵坐标是横坐标对应的概率值;其中,紫色虚线为指数分布拟合曲线,绿色虚线为Weibull 分布拟合曲线,蓝色实线为对数正态分布拟合曲线,红色实线为帕累托分布拟合曲线,黑色虚线为幂律分布拟合曲线,蓝色星形为传统互联网业务报文到达时间间隔的概率值。
图2 传统互联网业务的报文到达时间间隔拟合曲线
通过数据拟合实验获得的传统互联网业务报文到达时间间隔所对应的概率分布模型的拟合参数及评价指标见表2。结合图2 和表2 可知,拟合效果最佳的是幂律分布,其拟合曲线经过大部分实验数据点,且其R2值最接近1,RMSE 最小。由此可证明,幂律分布是反映传统互联网业务报文到达时间间隔变化规律的最佳数学模型。
表2 传统互联网业务概率分布模型的拟合参数及评价指标
其它4 种业务类(即时通信、实时音视频、流媒体、P2P)的实验结果分析与传统互联网类似,在此不作赘述。5 种旅客服务业务类的报文到达时间间隔服从的概率分布模型及相应的参数见表3。
表3 旅客服务业务类报文到达时间间隔概率分布模型
根据列车旅客上网服务需求,对旅客服务业务进行分类,对各业务类的流量特征展开研究,重点研究各业务类报文到达时间间隔的变化规律;经实验发现:指数分布不能有效刻画旅客服务业务类到达时间间隔的变化规律,其概率密度函数具有明显的重尾特性;采用5 类概率分布模型进行拟合实验,对比分析实验结果及评价指标,确定可反映各业务类报文到达时间间隔变化规律的最佳数学模型以及其参数。
今后可以根据新的应用场景,制定新的分类方案,研究各业务类报文到达时间间隔的变化规律。