基于时间序列分析的网络安全态势预测*

2016-07-19 00:27文志诚陈志刚唐军

华南理工大学学报（自然科学版） 2016年5期

关键词：时间序列分析网络安全

文志诚　陈志刚†　唐军

(1.中南大学信息科学与工程学院湖南长沙 410083; 2.中车株洲电力机车研究所有限公司，湖南株洲 412001)

基于时间序列分析的网络安全态势预测*

文志诚1陈志刚1†唐军2

(1.中南大学信息科学与工程学院湖南长沙 410083; 2.中车株洲电力机车研究所有限公司，湖南株洲 412001)

摘要:针对现有网络安全态势预测的信息来源单一、缺乏实时性等问题，通过考察网络安全态势变化特点，提出了基于时间序列分析的预测方法.首先构建主机上一系列隐马尔可夫预测模型，充分利用多源异构信息，刻画不同时刻主机安全态势的前后依赖关系，预测主机下一时刻的安全态势；再综合考虑网络上所有主机安全态势，量化计算出下一时刻的网络安全态势，间接地预测网络安全态势变化规律及发展方向.通过真实网络环境的实验，验证了文中提出的方法在网络安全态势预测中的可行性和有效性.

关键词：网络安全；安全态势预测；隐马尔可夫模型；时间序列分析；参数学习

网络安全态势感知(NSSA)于1999年首次由Bass提出，强调网络实体之间的相互关联性，从宏观角度给网管人员展现出一个清晰整体的网络安全状况[1- 3].目前NSSA已引起了国内外研究人员的高度重视，成为网络安全领域一个研究热点.NSSA是指对关联的网络安全各要素进行获取、理解、显示以及预测，可从整体上动态反映网络当前安全状况，对未来发展趋势进行预测预警，为策略制定提供可靠的参照依据[4- 5].

目前网络态势感知技术已逐渐地应用于计算机网络之中，并出现了一些感知方法[6- 8]，但目前还没有成熟的模型、方法和评价标准.文献[9]提出了基于攻击能力增长的网络安全分析模型，对网络安全性能进行分析.文献[10]针对网络安全态势感知问题，提出了一种基于神经网络的网络安全态势感知方法.文献[11]针对安全态势评估正确性和合理性等问题，提出了基于D-S融合知识的网络安全态势评估方法.文献[12]给出了基于神经网络和隐马尔可夫的网络安全态势感知方法.

为增强网络安全性能，需对安全态势未来发展趋势进行预测，目前对安全态势发展趋势的预测大多精度不高且缺乏实时性.文献[13]从理论与实际相结合的角度提出一种基于隐马尔可夫模型的网络安全态势预测模型HMM-NSSP，并给出了预测网络安全态势的方法.文献[14]为了尽可能准确评估和预测网络安全状态，在研究量子粒子群优化算法(QPSO)的基础上，探索影响算法全局收敛性能的因素，形成一种基于进化策略的改进QPSO算法.文献[15]通过对可信网络连接框架(TNC)和网络态势感知体系(CSA)的研究，针对可信网络安全中多数据源确定性与不确定性的特点，提出了基于集对分析的网络安全态势评估与预测方法(SPSAF).

针对现有预测方法信息来源单一、缺乏实时性等问题，文中采用最适用于时间序列分析的隐马尔可夫预测模型(HMM).首先构建主机上一系列隐马尔可夫预测模型，充分利用多源异构信息，刻画不同时刻主机安全态势的前后依赖关系，预测主机下一时刻的安全态势；再综合考虑网络上所有主机安全态势，量化计算出下一时刻的网络安全态势，间接地预测网络安全态势变化规律及其发展方向.

1网络安全态势

1.1安全态势定义

定义1网络安全态势GSA，由网络上n台主机安全态势HSA加权而成，取1—5的5个离散等级值，如图1所示.

定义2主机安全态势HSA由主机基础运行维Y、主机脆弱维U与主机威胁维F三维加权而成，取1—5的5个离散等级值.

定义3主机基础运行维Y由主机基础运行维指数IY融合生成，主机威胁维F由主机威胁维指数IF融合生成.其中IY、IF是一行五列概率向量.

文中只对IY、IF分别建立两大类用于预测的隐马尔可夫模型，它们的隐状态都为“安全、轻度危险、一般危险、中度危险、高度危险”5个等级离散值；对于主机脆弱维指数IU将采用推荐值，与主机脆弱维U具有相同值.

所谓指数，与指标数不同，是对本属性定量描述；文中用概率向量逐级描述IY、IF，两指数通过运算可得相应的Y和F；而主机脆弱维指数IU为标量，是一个专家推荐值，在文中与U相同.

1.2可观测指标

网络安全态势可观测指标是预测的基础，是外部可以用于观测的信息来源，需要建立一套合理、科学的可观测指标体系，充分利用多源异构信息源，能全面评价预测当前网络的整体安全性能.网络安全态势可观测指标体系及预测架构如图1所示.

1.3网络安全等级

根据国家突发公共事件总体应急预案文稿[16]，并结合网络威胁与漏洞等要素特点，把网络安全态势等级划分为5个等级，用0～1区间的小数定量描述，如表1所示.

网络安全等级参照表是文中的工作基础，也是构建隐马尔可夫预测模型及各类预测结果等级给定的参考依据.

图1　网络安全态势可观测指标体系及预测架构

Fig.1Observable index system and predication architecture of network security situation

表1　网络安全等级参照表

1.4离散化方法

可观测指标可取离散型和连续型两种值，为了便于原始数据在隐马尔可夫预测模型中的应用，把连续型取值离散化，取为“安全、轻度危险、一般危险、中度危险、高度危险”或“1、2、3、4、5”5个等级值.对于连续型原始数据，把数据的取值约束在区间[0,1]之内，有

(1)

式中，Di表示原始数据值，Dmax与Dmin表示数值上下限.对于任何一个连续型原始采样数据，可通过式(1)化为0～1之间的值，再对照表1可离散化为相应的等级离散取值.这是构建隐马尔可夫预测模型的理论基础.

2预测模型

2.1隐马尔可夫模型

2)A=(aij)N×N，为隐马尔可夫模型中的隐状态转移概率矩阵,

aij=P(qt+1=Sj|qt=Si),

3)B=(bjm)N×M,为观测符号概率矩阵，即每个状态中各个不同可观测符号的概率分布.设可观测序列为O=o1,o2,…,ot，则:

bjm=P(Ot=vm|qt=Sj),

2.2构建预测模型

文中需构建两大类隐马尔可夫预测模型，其中每类又由若干个隐马尔可夫预测模型组成，共同完成此大类的预测任务.以主机威胁维指数IF构建一系列隐马尔可夫预测模型为例，主机基础运行维指数IY所关联大类隐马尔可夫预测模型的构建类似，不再赘述.

定义1设主机威胁维指数IF内部隐状态可表示为S1,S2,…,S5，则主机威胁维指数将在这5个状态中以概率aij自由转换，其中0≤aij≤1.

定义2主机威胁维指数IF有L个外在可观测指标，表示为随机变量xi(1≤i≤L)，而每个可观测指标xi都有5个离散化可观测状态；对xi的一次具体观测值表示在时刻T的观测oT=vT(vT为一个五等离散化状态)，则经过t个时刻得到观测序列O={o1,o2,…,ot}.

在主机威胁维指数与脆弱维指数中遴选出多少个用于预测的可观测指标xi，则需构建多少个隐马尔可夫预测模型，可将其划分为相应的两大类预测模型，利用多源异构信息源，共同完成预测功能.

2.3参数学习

2.3.1符号定义

则有公式：

(2)反向概率βt(i)，处于隐状态Si并且观测到部分序列Ot+1,Ot+2,…,OT的概率，

则有βt(i)=1；当在时刻t时处于隐状态Si且观测到序列Ot，则

(4)在t时刻系统处于隐状态Si的概率为

2.3.2样本训练

O={o1,o2,…,ot}，

在所得参数上取平均，可计算

3预测网络安全态势

首先预测主机安全态势,再由各主机安全态势综合生成网络安全态势.

3.1生成主机安全态势

第②步需综合本系列L个隐状态序列Qr得到IF隐状态序列Q；第③步的IF随机矩阵A需综合L个随机矩阵Ar得到.

3.1.1Viterbi算法解码

定义δt(i)为在时刻t代表前t个观测并止于状态Si具有最高概率路径的概率：

δt(i)=maxq1,q2,…,qt-1[P(q1,q2,…,qt-1,qt=St,

可以递归地计算δt+1(i)，而最优路径可以从时刻t开始，在每个时刻选择最合适的状态来反向读取，算法如下：

(1)初始化

φ1(i)=0.

(2)递归

δt(j)=maxi[δt-1(i)aijbjt],

φt(j)=arg maxi[δt-1(i)aij].

(3)终止

p*=maxi[δi(i)],

(4)路径(状态序列)回溯

φt(j)跟踪了在t-1时刻最大化δt(j)的状态，也就是说，最佳的前驱状态.通过后向递归，可以得出最佳状态序列Q=S1,S2,…,St.

3.1.2主机安全指数

在时刻t，目前主机的威胁维指数IF处于隐状态qt，则下一时刻(t+1)，处于隐状态qt+1的有5个概率，由随机矩阵A得到概率向量：

IF=[P(qt+1=S1|qt=St),P(qt+1=S2|qt=St),…，

P(qt+1=S5|qt=St)].

主机基础运行维指数IY同理可得.主机脆弱维指数IU只涉及到系统配置信息，比较稳定，可由防护软件如360安全卫士等推荐而得.

由此得到主机t+1时刻的安全指数(IY，IU，IF).

3.1.3主机安全态势

生成主机t+1时刻安全态势HSA分两步进行：①由主机基础运行维指数IY生成主机基础运行维Y、主机威胁维指数IF生成主机基础威胁维F；②由主机基础运行维Y、脆弱维U、威胁维F生成主机安全态势HSA，其相互关系如图1所示.

以主机威胁维F为例，设等级向量E为转置矩阵，E=(1,2 ,3,4,5)T，则

F=IF·E=

[P(qt+1=S1|qt=St),P(qt+1=S2|qt=St),…，

P(qt+1=S5|qt=St)]·(1,2,3,4,5)T=

物理意义上，主机威胁维F由所处等级i与其等级i的概率的乘积相加得到.F取1.0～5.0之间的实数，作为生成主机t+1时刻安全态势输入数据，同理可得主机基础运行维Y.主机脆弱维U与脆弱维指数IU相同.

再根据经验与专家推荐，给出主机基础运行维Y、主机脆弱维U与主机威胁维F的权重w=(w1,w2,w3)(w1+w2+w3=1)，有

HSA=w1Y+w2U+w3F.

物理意义上，w=(w1,w2,w3)表示主机上三维(Y,U,F)在安全态势中所占的比重，一般地，主机基础运行维是主机安全态势的外在体现，其权值w1比较大.

3.2生成网络安全态势

在t+1时刻网络上有n台主机，包括普通计算机和各类服务器，为了突出网络节点中服务器的重要性，把服务器主机权重增加为普通主机的若干倍，等价于若干个普通节点.根据专家经验值，赋予网络上各主机的权重ηi，网络安全态势GSA由各主机安全态势加权生成：

4仿真实验

搭建了一个网络实验环境，验证文中提出评估方法的合理性与正确性.在该环境下进行安全态势量化评估实验.普通用户User和攻击者Attacker可通过Internet访问该网络上各主机.

4.1数据采样

对于连续型原始采样数据，可应用式(1)归一化处理为0～1之间的实数值，再对照表1可取相应的等级离散取值.为了便于表达，数据按中间值处理后平移到相应的位置，而不是直接取离散值，否则变成一根折线，表达不了差异性，如图2所示.离散化平移后，数据在相应的离散值附近上下小幅度波动.在应用时，在等级i附近上下波动的数据就取离散化值i，方便且易于操作.

4.2参数学习

为了让所建立的隐马尔可夫模型能够预测，必须对其进行参数学习.本实验随机采集样本量4 000个，对贝叶斯网与隐马尔可夫参数学习进行比较，结果如图3所示.

图2　离散化数据采样图

图3　两种模型参数学习对比

Fig.3Comparison of parameter learning between HMM and Bayes

经过主机4 000个大样本隐马尔可夫参数学习，以主机威胁维指数IF为例，得到一个隐马尔可夫模型的隐状态转移概率矩阵A：

aij安全轻度危险一般危险中度危险高度危险安全0.7680.1560.0560.0120.008轻度危险0.1060.7180.1060.0580.012一般危险0.0520.0960.7040.0960.052中度危险0.0130.0540.1020.7290.102高度危险0.0060.0130.0660.1410.774

4.3主机安全态势

表2示出了在某个时刻t网络上一主机所有可观测指标的离散取值.网络上有N台主机，在这个时刻t时就有N个类似参数，先生成N个主机安全态势HSA，再共同融合成网络的安全态势GSA.

由表2可知此台主机正受到网络攻击，因为威胁维指数各可观测指标基本上处于2、3等级，主机威胁维指数IF经计算为(0.75,0.15,0.06,0.03,0.01)，与它的等级向量E=(1,2,3,4,5)T之积，得到主机威胁维F=1.40；同理，可从主机基础运行维指数IY得到主机基础运行维Y=1.26，经专家推荐主机脆弱维U=1.10；取经验权值w=(w1,w2,w3)=(0.50,0.25,0.25)，则主机安全态势HSA=w1Y+w2U+w3F=1.29，取上整得到主机安全态势为第1等.

4.4网络安全态势

表2　主机可观测指标所取离散值

图4　网络安全态势预测对比

Fig.4Comparison of the network security situation prediction

5结语

文中构建了主机上一系列隐马尔可夫预测模型，使样本容易采集且极大地降低了3个参数获取的时间复杂度，可充分利用多源异构信息，从不同角度刻画了不同时刻主机安全态势的前后依赖关系，预测了主机下一时刻的安全态势；再综合网络上所有主机安全态势，量化计算出下一时刻的网络安全态势，间接地预测网络安全态势变化规律及其发展方向.通过仿真实验，验证了文中所提的方法正确性.文中创新之处为：在建立隐马尔可夫模型时，分别构建了IY、IF两大类一系列隐马尔可夫预测模型，并间接量化了网络安全态势.

参考文献：

[1]BASS T.Intrusion detection systems and multisensor data fusion [J].Communications of the ACM，2000,43(4):99- 105.

[2]GÖRNITZ N,KLOFT M,RIECK K,et al.Toward supervised anomaly detection [J].Journal of Artificial Intelligence Research,2013,46(2):235- 262.

[3]SAMPLE C,SCHAFFER K.An overview of anomaly detection [J].IT Professional,2013,15(1):8- 11.

[4]姜允志,郝志峰,张宇山，等.贝叶斯预测型进化算法 [J].计算机学报,2014,37(8):1846- 1858.

JIANG Yun-zhi，HAO Zhi-feng，ZHANG Yu-shan，et al.Baysian forecasting evolutionary algorithm [J].Chinese Journal of Computers,2014,37(8):1846- 1858.

[5]BRADSHAW Jeffrey M,CARVALHO M,BUNCH Larry,et al.Sol:an agent-based framework for cyber situation awareness [J].Künstliche Intelligenz,2012,26(2):127- 140.

[6]GIUSJ D,CHIARA F,GABRIELE O,et al.Aware online interdependency modeling via evidence theory [J].International Journal of Critical Infrastructures,2013,9(1/2):74- 92.

[7]BAZAN J G,BAZAN-SOCHA S,BUREGWA-CZUMA S,et al.Classifiers based on data sets and domain know-ledge:a rough set approach [M]∥Proceedings of Intelligent Systems Reference Library.Berlin,Heidelberg:Springer,2013:93- 136.

[8]方研,殷肖川,孙益博.基于隐马尔可夫模型的网络安全态势评估 [J].计算机应用与软件,2013,30(12):64- 68.

FANG Yan,YIN Xiao-chuan,SUN Yi-bo.Network security situation assessment based on hidden Markov model [J].Computer Applications and Software,2013,30(12):64- 68.

[9]张海霞,苏璞睿,冯登国.基于攻击能力增长的网络安全分析模型 [J].计算机研究与发展,2007,44(12):2012- 2019.

ZHANG Hai-xia，SU Pu-rui，FENG Deng-guo.A network security analysis model based on the increase in attack ability [J].Journal of Computer Research and Development,2007,44(12):2012- 2019.

[10]谢丽霞,王亚超,于巾博.基于神经网络的网络安全态势感知 [J].清华大学学报(自然科学版),2013,53(12):1750- 1760.

XIE Li-xia,WANG Ya-chao,Yu Jin-bo.Network security situation awareness based on neural networks [J].Journal of Tsinghua University(Science and Technology),2013,53(12):1750- 1760.

[11]唐成华,汤申生,强保华.DS融合知识的网络安全态势评估及验证 [J].计算机科学,2014,41(4):107- 110,125.

TANG Cheng-hua,TANG Shen-sheng,QIANG Bao-hua.Assessment and validation of network security situation based on DS and knowledge fusion [J].Computer Science,2014,41(4):107- 110,125.

[12]席荣荣,云晓春,张永铮,等.一种改进的网络安全态势量化评估方法 [J].计算机学报,2015,38(4):749- 758.

XI Rong-rong,YUN Xiao-chun,Zhang Yong-zheng,et al.An improved quantitative evaluation method for network security [J].Chinese Journal of Computers,2015,38(4):749- 758.

[13]黄同庆,庄毅.一种实时网络安全态势预测方法 [J].小型微型计算机系统,2014,35(2):303- 306.

HUANG Tong-qing,ZHUANG Yi.An approach to real-time network security situation prediction [J].Journal of Chinese Computer Systems,2014,35(2):303- 306.

[14]郭春晓,苏旸.一种新的基于量子进化策略的网络安全态势优化预测算法 [J].小型微型计算机系统,2014,35(9):2083- 2087.GUO Chun-xiao,SU Yang.A new optimized algorithm based on quantum evolutionary strategy for network securitysituation prediction [J].Journal of Chinese Computer Systems,2014,35(9):2083- 2087

[15]吴琨,白中英.集对分析的可信网络安全态势评估与预测 [J].哈尔滨工业大学学报,2012,44(3):112- 118.WU Kun，BAI Zhong-ying.Trusted network security situa-tional awareness and forecast based on SPA [J].Journal of Harbin Institute of Technology,2012,44(3):112- 118.

[16]国务院.国家突发公共事件总体应急预案 [M].北京:中国法制出版社,2006.

责任编辑：牛晓光

收稿日期:2015- 09- 18

*基金项目:国家自然科学基金资助项目(61379057,61309027,61073186)；湖南省自然科学基金资助项目(2016JJ5034)；中南大学博士后基金资助项目(114006)

Foundation items: Supported by the National Natural Science Foundation of China(61379057,61309027,61073186)and the Natural Science Foundation of Hunan Province(2016JJ5034)

作者简介:文志诚(1972-)，男，教授，博士后，现就职于湖南工业大学计算机与通信学院，主要从事网络安全研究.E-mail:zcwen@mail.shu.edu.cn †通信作者: 陈志刚(1964-)，男，博士，教授，博士生导师，主要从事网络计算与分布式处理研究.E-mail：czg@csu.edu.cn

文章编号:1000- 565X(2016)05- 0137- 07

中图分类号：TP 311

doi：10.3969/j.issn.1000-565X.2016.05.021

Prediction of Network Security Situation on the Basis of Time Series Analysis

WENZhi-cheng1CHENZhi-gang1TANGJun2

(1.School of Information Science and Engineering,Central South University,Changsha 410083,Hunan,China;2.CRRC Zhuzhou Institute Co.,Ltd.,Zhuzhou 412001,Hunan,China)

Abstract:As the existing network security situation prediction is restricted to its single information source and poor real-time property, a new prediction method fully considering the variation of network security situation is proposed on the basis of time series analysis. In this method, a series of hidden Markov models are constructed to predict the security situation for hosts according to the front and back dependence, and then to predict the trend of network security at the next moment by fully using multi-source heterogeneous information. Moreover, the network security si-tuation at the next moment is quantitatively calculated from all hosts in the network. Thus, the change law and development direction of network security situation can be indirectly predicted. Experimental results in real network environments show that the proposed prediction method of network security situation is feasible and effective.

Key words:network security;security situation prediction;hidden Markov model;time series analysis; parameter learning