徐建斌,陈旻瑞
(江西省交通监控指挥中心,江西 南昌 330036)
随着互联网的蓬勃发展,多样化的网络攻击手段威胁着网络安全,交通运输作为生活中必不可少的部分,交通网络攻击严重影响日常生活。目前,众多学者深入研究了交通网络安全,文献[1]研究了城市轨道交通云平台网络安全防护平台方案,通过分析城市轨道交通网络安全现状及国家网络安全政策要求,提出基于网络安全等级保护2.0的基本要求,构建城轨云网络安全防护平台,根据“一个中心”管理下的“三重保护”体系框架进行设计,构建安全机制和策略,形成定级系统的安全保护环境。但是该方法对网络攻击逻辑分析不够深入,导致攻击识别准确率低;文献[2] 研究了符合等级保护三级要求的城市轨道交通综合监控系统信息安全,根据国家标准有关等保的要求,分析了目前ISCS信息安全现状和存在的问题,围绕“一个中心、三重防护”要求,提出了ISCS信息安全的设计方案,并从ISCS网络安全架构、信息安全功能设置等方面给出了实施建议,但是该方法的针对多样化的攻击方式,识别的准确率低。针对上述问题,提出了基于聚类算法的交通网络攻击识别方法。
K-means聚类算法[3]是常用的聚类算法技术,其是一种改进的聚类算法中的划分方法,并且以特征空间的距离作为测量相似性的标准。通过测算特征距离计算两个数据样本之间的相似性,间距越短代表两个数据差异越小,间距越长代表两个数据差异越大。计算相似性度量使用的函数,需要满足两个数据对象间的距离大于等于0且互为对称等条件。闵可夫斯基距离(Minkowski Distance)度量是常见的相似性度量计算方法:
式中,mx与ym代表两个数据对象;dxy代表两个数据对象之间距离相似性;k为常数,当k=1时,公式(1)代表绝对距离;当k=2时,公式(1)代表欧几里得距离,又称欧氏距离,该距离是目前聚类分析[4]中应用最多的距离。在聚类算法计算中,使用欧氏距离算得的结果不会受到特征空间平移和旋转的影响。
网络攻击数据不平衡是网络攻击识别中经常面临的问题,不均衡的攻击数据集会影响识别的准确率。过采样指合成少量类样本的一种方法,合理的采样方式会提高合成伪样本的适用性、降低网络攻击识别的错误率。该文基于Smote算法进行优化后,得到了Keans-Smote过采样算法,平衡化处理网络攻击数据。Keans-Smote算法的类间离散度较低、数据对象较多时生成伪样本较少、伪样本的分布形式与原始样本差异性较小以及保证了伪样本合理性,并使其在分类边界内。使用Keans-Smote算法处理数据,生成的伪样本与真实样本相似度更高,在网络攻击识别模块中,算法处理数据的适用性更强。Keans-Smote算法基本原理图如图1所示:
图1 Keans-Smote算法基本流程图
首先利用Keans-Smote算法在少量类样本内计算出聚类中心数据,参考聚类中心数据来划分聚类内的簇;然后选择采样簇,通过单个簇与平均簇的密度比,计算过采样簇的比重,比重影响伪样本的生成数量,簇的密度公式如下式所示:
式中,Mc——簇内少量类样本数据;AMDc——计算少量类样本平均距离。根据采样簇的比重,进行滤波操作,进一步获得需要过采样的簇,并执行过采样操作,直到所有参与采样的簇中全部伪样本符合要求,结束操作。
利用Keans-Smote算法采样操作后,考虑到操作过程中遇到数据缺失等问题,该次实验使用平均值法平衡化处理攻击数据。首先,通过随机排列组合将小样本的参数构建成大样本的网络攻击数据集,然后计算多分类数据的不平衡率、采样次数与伪样本数量,利用过采样算法生成攻击数据的伪样本,随机混合伪样本与原始数据,获得数量平衡的网络攻击数据样本集。经过平衡化处理的网络攻击数据用于最终的实验测试阶段。
随着互联网攻击频率的增长,流量攻击成为互联网攻击的主要方式,以前通过系统Bug攻击主机的方式已经逐步被流量攻击取代,因此需要分析流量攻击。源IP、目的IP、各种端口号以及协议号的集合定义为流,而流中的报文数据就是流头部。流头部是识别网络受到流攻击的重要模块,如向目标广播地址发送icmp-echorequest报文时,这就是Smurf攻击,因为Smurf攻击数据流是伪造的源地址数据。当攻击数据流的字节大时,成为Ping of Death 攻击。当传输层控制协议为TCP与UDP时,当攻击流的源IP与目的IP都相同时且源端口与目的端口也相同,则攻击是LAND attack;若攻击流的源端口和目的端口都是通过UDO回射客户服务器,那么该次攻击就是Ping攻击,与此同时,如果假设目的地址都是广播地址,那么该次攻击就是Fraggle攻击。当识别模块在各应用协议处的流头部识别出很大的字节数与数据包个数时,此攻击为SYNC Flooding攻击,其中字节数与数据包个数可以利用提前设置的阈值判定。
当交通系统受到网络攻击后,因受到空间分布异常的影响,识别方法无法准确划分攻击样本,因此,为了实现此类样本的精准划分,通过焦点损失函数改进Lightgbm算法,提升网络攻击识别模型的数据分类能力。原始Lightgbm损失函数如公式(3)所示,焦点损失函数优化后如公式(4)所示:
式中,n——第n棵决策树;M——攻击样本类别的参数;qe——预测攻击样本g为e的概率;An-1(xg;Bn-1)——在Bn-1条件下,第n−1棵决策树模型预测攻击样本xg的数据;Bn-1——n−1棵决策树的集合;L[yg,An-1(xg;Bn-1)]——误差函数;1−qe表示损失的调节因子;数据γ——容易分类的攻击样本比重降低的速率数据。通过此焦点损失函数优化后的Lightgbm函数,可以使攻击样本分类的正确率上升。
优化后的此算法作为该次设计的攻击识别模型,如网络攻击数据进行平衡化处理后的集合为R,那么R={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},xg∈R,yg∈{0,1,2,3}。其中xg表示攻击样本,yg表示攻击数据的标注,则交通网络攻击识别模型输出如下式所示:
网络攻击识别模型[5]属于多分类建模,不同的输出结果代表不同的攻击以及非攻击事件,当此模型输出为0,表示交通网络系统未受到攻击;当输出为1,表示交通网络系统受到来自改变量测参数的攻击;当输出为2,表示交通网络系统受到了来自改变控制信号的攻击;当输出为3,表示交通网络系统受到了来自改变设备数据的攻击。构建交通网络攻击识别模型详细步骤:步骤一,通过归一化方法处理受到攻击的最佳特征子集,同一级别化系统状态变量参数;步骤二,通过焦点损失函数优化后的Lightgbm函数分类攻击样本,找出最佳样本参数;步骤三,通过贝叶斯公式获取最佳样本参数中重要数据;步骤四,再次通过焦点损失函数优化后的Lightgbm函数分类最佳数据集,获得最后的识别模型;步骤五,利用测试集评估识别模型性能,不满足条件的再次执行步骤三、四,满足条件后保存结果[6-8]。
实验以江西省交通监控指挥中心的网络为研究对象。江西省自90年代起,逐步拓展、发展交通网络。低等级道路网形成、高速公路网诞生、低等级道路网成熟和高速公路网成熟这四个阶段是江西省交通网络演变的代表。江西省的交通网络类别比较简单的时期,低等级公路网络系统较为完整,监控范围宽广,因此,在当时的交通运输中起着核心作用;江西省内各处高速公路的全面建成,标志着这时期全新高速公路交通网络的诞生,在国道线路的稳定、省道以及县乡道线路的增多中发挥了重要作用;在江西省高速公路快速发展的时期,低等级公路网走向成熟,高速公路骨干网也初步形成;当江西省进入高铁时代,形成了占比较高的骨架路网,这一时期,完成了高铁网络的搭建,在高速公路的线路大幅增加的同时,高速公路网趋于成熟。
通过MATLAB平台分析江西省交通监控指挥中心的交通网络,试验通过数据管道对网络攻击流、攻击识别模块与指挥中心的交通网络之间传输数据。设置好实验环境参数,首先利用网络攻击流对交通网络攻击网络,在此过程中,分别使用基本的网络攻击识别方法与该文所提的基于聚类算法的网络攻击识别方法对此攻击流进行识别,最后通过Linux算法分别评估这两个方法对网络攻击的识别性能,并比较识别结果。实验过后,统计这两个方法识别的有效次数,并分别计算识别率,得到的结果如图2所示。
图2 网络攻击识别率对比
图中,实线代表该文所提识别方法,虚线代表基本识别方法。由图2可知,基于聚类算法的交通网络攻击识别方法的识别效果远好于基本网络攻击识别方法,其识别率达到了80.4%,基本识别方法的识别率仅为59.7%,该文识别方法提高了20.7%。该文攻击识别方法大幅度提升了识别率,与此同时还可以保护交通网络的设备安全,识别模块控制主板中的微型处理器与网络设备的各硬件结构搭配,不仅满足了交通监控指挥中心的多种需求,也提升了对网络攻击识别的正确率。
基本交通网络攻击识别方法由于其数据库资源不足,并且硬件与软件的协调程度低,因此,在面临时下多样性的网络攻击下,不仅识别的正确率低,而且受到攻击后的应急手段也较差。但该文提出的基于聚类算法的交通网络攻击识别方法,在原有的识别方法基础上增加了聚类算法,具备聚类算法的优点,大幅度提升了新型网络攻击识别的正确率,也给指挥中心更多的功能选择,最大限度地帮助指挥中心识别多种网络攻击,保证交通网络安全。
交通网络是当代人类发展的重要组成部分,而交通监控指挥中心是实现交通网络正常运转的关键,其交通网络安全至关重要,因此,该文提出基于聚类算法的交通网络攻击识别方法,该方法引入了聚类算法,其对多样化的网络攻击识别准确率较高,并且可以保证交通网络设施的安全性。但是该系统仍然需要一定的优化,现代网络攻击手段存在多样化特性,而该文所提识别系统仅可以保证部分网络攻击的识别准确率,识别的范围还不够全面,今后仍需继续研究,提高交通监控指挥中心的网络安全,保证其安全管理与维护。