于烨 柴育峰 康乐 郭景维 张波
摘 要: 针对用户访问轨迹的数据特征,提出一种基于EEMD技术的多步时间序列预测模型。该模型利用了集合经验模态分解EEMD结合极限学习机ELM模型,混合人工鱼群MAFA优化的方式,克服了算法中存在过拟合和多步时间序列预测的策略限制问题。通过该模型,实现了对访问轨迹时间序列多步预测,结合安全范围包络线,进而提前发现是否存在入侵行为。验证结果表明,优化后的EEMD?ELM模型比传统时间序列预测方法的迭代速率与精度得到了极大提高,泛化能力增强,说明了该方法的有效性、可行性。
关键词: 势态感知; 集合经验模态; 极限学习机; 混合人工鱼群; 多步时间序列预测
中图分类号: TN915.08?34; V249 文献标识码: A 文章编号: 1004?373X(2017)07?0159?04
Multi?step time series prediction method based on EEMD technology
in electric power information security
YU Ye, CHAI Yufeng, KANG Le, GUO Jingwei, ZHANG Bo
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: According to the data characteristics of the user access path, a multi?step time series prediction model based on ensemble empirical mode decomposition (EEMD) technology is proposed. The model uses the EEMD combining with the extreme learning machine (ELM) model, and optimization method of the hybrid artificial fish swarm algorithm to overcome the constraint problems of the over?fitting and multi?step time series prediction strategy existing in the algorithm. The time series multi?step prediction of the access path was implemented with the model, and the intrusion behavior can be found in advance in combination with the envelope line of the safety range. The verification results show that the optimized EEMD?ELM model has higher iteration rate and accuracy than those of the traditional time series prediction methods, its generalization ability is enhanced, and the effectiveness and feasibility of this method was illustrated.
Keywords: situation awareness; ensemble empirical mode; extreme learning machine; hybrid artificial fish swarm; multi?step time series prediction
0 引 言
电力信息系统的安全性往往关系到企业的核心利益,不断发展与变化的网络信息技术和网络入侵攻击技术越来越表现出不确定性、复杂性、多样性等特点。
目前,国内外学者在时间序列预测的研究中,采用的都是单步时间序列预测ARIMA、直接策略、迭代策略、经验模态分解等[1],而目前还未能出现针对电力信息系统数据库的访问轨迹势态感知的多步时间序列预测方法。
本文基于集合经验模态分解EEMD技术引入极限学习机ELM模型,利用人工鱼群算法结合多模态函数优化算法建立了一个对访问轨迹的数据进行多步时间序列预测的模型。该算法在求解类似大规模访问轨迹数据的多步预测突破了传统算法策略的限制,具有更高的迭代效率和能力。以某信通公司信息系统数据库中20台分布式服务器的访问轨迹数据集为例,建立样本集的特征向量,对访问数据进行了多步时间序列预测,有效地提前发现是否存在入侵行为,提高了模型泛化能力。
1 EEMD?ELM时间序列预测方法
针对电力信息系统数据库的网络访问轨迹时间序列,采用EEMD混合模型技术进行不同特征尺度的分解,使用EEMD?ELM混合模型进行单步时间序列预测。
1.1 集合经验模态分解
经验模态分解(Empirical Mode Decomposition, EMD)[2]是一种实现数据局部特征自适应的分解技术。EMD通过对繁杂的网络入侵电力信息系统操作序列进行平稳化预处理,进而将复杂的入侵操作记录序列分解成一组性能较好,特征尺度差异较大的本征模函数(Intrinsic Mode Function,IMF)。详细的分解过程为:
(1) 确定入侵操作记录序列[P(t)]的所有极值点,用核密度函数拟合成全包络线,序列[P(t)]与上下包络线的平均值[m1]的差记为[h1。]
(2) 把[h1]视为新序列,重复以上过程,直到[h1]满足IMF的上述两个条件,则其成为从原始序列筛选出最高频的分量[c1,]其他剩余量可以表示为[r1=P(t)-c1。]
(3) 对[r1]继续上述分解,直到第[n]阶段的残余序列为单调函数或其值小于预先给定的值,分解结束。
网络入侵操作记录序列可以写为:
[p(t)=i=1nci(t)+rn(t)]
由于在EMD中存在一个IMF分量,包含了尺度差异较大的信号,针对这个问题采用集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)[3],通过在网络入侵操作记录序列中加入一系列低信噪比白噪声,进行上述经验模态分解,集合平均使得加入白噪声相互抵消,克服模式混合的问题。
1.2 极限学习机算法原理
本文采用的极限学习机神经网络(Extreme Learning Machine,ELM)是一種前馈神经网络学习算法[4]。
设[H]是隐含层的输出矩阵,ELM神经网络的输出公式就简化为:[H?β=ZT,]令[ε=YT-ZT]是逼近残差,那么隐含层和输出层间的连接权值[β]就可以通过求解以下方程组的最小二乘解获得[5]:
[minβHβ-YTβ=H+YT]
式中[H+]为隐含层输出矩阵[H]的广义逆。
2 混合鱼群MAFA优化算法
本文中网络入侵电力信息系统数据库访问规矩在本质上是一种时间序列,为了实现此时间序列多步预测,采用基于混合鱼群MAFA优化EEMD?ELM策略,该策略能够自适应优化调整输出向量的长度,有效地克服了现有多步预测策略中的限制条件,其体系结构如图1所示。
本文对模型全局搜索采用人工鱼群AFA(Artificial FishAlgorithm)[6]算法。状态为[X=x1,x2,…,xn,][xi]为寻优目标变量。
引入多模态函数优化算法(Multimodal Function Optimization,MFO)[7]实现人工鱼群算法AFA的动态策略调整。避免当寻优区域平坦,算法出现局部收敛、早熟等现象。
假设个体[i]与个体[j]间欧式距离以[dij]表示,调整后的个体适应度为:
[f′i=fimi]
式中:[mi]为多模态数目,[mi]为个体[i]与其他个体所得的共享函数[sh(dij)]之和。[sh(dij)]与[mi]的表达式如下:
[sh(dij)=1-dijσshλ,dij<σsh0,otherwise,mi=j=1nsh(dij)]
式中:[λ]为共享程度;[σsh]为多模态半径;[n]为群体规模。
人工鱼群AFA算法结合多模态函数优化算法(MFO)的MAFA算法描述如图2所示。
3 访问轨迹的多步时间预测方法
3.1 访问轨迹势态感知的全局流程
本文首先将电力信息系统数据库的访问历史数据经过密度估计方程得到其安全范围包络线,并作为标准阈值范围。为了突破时间序列预测策略在多步预测的限制,本文提出多模态优化结合人工鱼群的EEMD?ELM算法,实现了多步时间序列预测。算法模型结合系统审计日志对数据库的访问数据进行实时数据收集与预测,根据其访问轨迹进行预测分析,如果预测发现有安全问题的存在,那么进行重点关注,一旦发现违反安全策略的行为,或者可能存在入侵行为,予以警告提醒。全局整体流程如图3所示。
3.2 特征向量的建立
访问轨迹信息是多维度数据,不能直接使用EEMD?ELM算法进行时间序列预测。可以先提取访问轨迹的统计特征,然后用一个特征向量表征访问轨迹后代入预测算法。
设包括有[n]个操作、[m]个数据点的访问轨迹为:
[X=X11X12…X1nX21X22…X2n????Xm1Xm2…Xmn]
为了消除不同访问操作数据间数量级上的差异,本文按照下式将操作数据归一化为-0.5~0.5。
[Xij=Xij-Xj,minXj,max-Xj,min-0.5]
分别计算操作数据归一化后的方差与均值:
[Xi=1mj=1mXij,i=1,2,…,n]
[Si=1mj=1mXij-Xi2,i=1,2,…,n]
最终构建的特征向量包括[2n]个元素。
[y=X1S1X2S2…XnSnT]
3.3 自适应的多步时间预测
文献[2]中归结出MISMO多步预测策略,预测步长和输出节点的个数应该相等。本文采用MAFA结合EEMD?ELM的算法实现,突破了MISMO的限制。
对于MAFA优化问题,每个人工鱼[P=p1,p2,…,pF-1]代表一个可能的可行解。[P=p1,p2,…,pF-1]中的[F-1]个成分是0或1,[pi]为0,则任务不会在[pi]进行分割;[pi=1,]则任务在[pi]进行分割,多步预测的编码结构如图4所示。
3.4 预测结果的评价
为了评价EEMD?ELM在访问轨迹时间序列单步预测的性能情况,本文选取均方根误差RMSE与平均绝对百分误差MAPE为指标。对于混合鱼群算法MAFA优化EEMD?ELM进行提前的多步预测,本文采用对称平均绝对百分比误差SMAPE[8]来评价整体预测性能效果:
[SMAPEh=1Mm=1MδmN+F-δmN+FδmN+F+δmN+F×100%]
式中:[δmN+F]表示时间序列[m]提前[F]步的预测值;[δmN+F]表示对应的实际值。
4 实例结果分析
为了验证本文MAFA优化的EEMD?ELM多步预测算法模型的性能,本文采用三个月时间内信通公司信息系统数据库中20台分布式服务器的访问轨迹数据,具体是把每台的网络连接和审计日志数据作为原始数据。将每台服务器的数据转化为特征向量后等分为A,B,C,D四组,选取A,B,C三组的数据作为测试数据集,D组的数据作为实际数据集。
将测试数据集代入EEMD?ELM模型网络后进行时间序列单步预测。把实际数据集作为标准值,与预测结果对比计算。
EEMD?ELM,ELMs和ARIMA算法对每台服务器上的访问数据做了单步预测,并以RMSE,MAPE作为评价性能指标,将三种算法结果进行对比,具体如图5,图6所示。
从图5和图6中可以明显看出本文提出的基于EEMD技术的ELM模型在单步时间序列的预测上相比ELMs,ARIMA模型误差较小,精度更高。
采用本文提出的MAFA优化的EEMD?ELM模型,将此算法用于自适应调整EEMD?ELM模型的多步预测步长,实现多步时间序列预测。将实际数据集划分为多步时间序列进行验证,并以SMAPE作为评价性能指标,得到算法的预测误差,具体如表1所示。
本文提出人工鱼群算法AFA结合多模态函数优化MFO算法的混合鱼群算法MAFA,进行测试函数的迭代计算,并与其他优化算法的效果进行对比,具体如图7所示。
从结果可以看出,本文提出的混合鱼群MAFA算法的迭代效率和收敛速度要明显优于其他优化算法。同时,利用MAFA自适应调整EEMD?ELM模型的多步预测步长,使多步时间序列预测的误差控制在4.5%以内,满足工程精度要求。
5 结 论
本文提出基于EEMD技术的电力信息安全的多步时间序列预测方法,该方法仅凭借电力信息系统数据库的当前访问轨迹数据,即可实现对访问轨迹时间序列多步预测,结合安全范围包络线,进而提前发现是否存在入侵行为。根据本文分析可以得到以下结论:
(1) 本文创新性地运用EEMD技术对复杂多样的访问轨迹时间序列数据进行分解,然后运用极限学习机ELM对分解得到的子时间序列实现分布式预测,从而实现对复杂多样的时间序列单步预测。
(2) 面对极限学习机ELM容易出现过拟合和局部收敛的现象,提出人工鱼群AFA结合多模态函数MFO优化算法,根据验证结果表明,该算法具有较好的迭代效率,并克服过拟合和局部收敛的问题。
(3) 本文提出MAFA优化EEMD?ELM模型的方法,能够有效地突破现有MISMO多步预测策略限制,自适应调整多步预测步长。根据验证结果表明,实现多步预测的误差控制在4.5%以内,满足工程精度要求。
参考文献
[1] 李瑞国,张宏立,范文慧,等.基于改进教学优化算法的Hermite正交基神经网络混沌时间序列预测[J].物理学报,2015(20):104?116.
[2] SANG Y F, WANG Z, LIU C. Comparison of the MK test and EMD method for trend identification in hydrological time series [J]. Journal of hydrology, 2014, 510: 293?298.
[3] 熊涛.基于EMD的时间序列预测混合建模技术及其应用研究[D].武汉:华中科技大学,2014.
[4] 王萍,王迪,冯伟.基于流形正则化的在线半监督极限学习机[J].上海交通大学学报,2015,49(8):1153?1158.
[5] BAI Z, HUANG G B, WANG D, et al. Sparse extreme lear?ning machine for classification [J]. IEEE transactions on cybernetics, 2014, 44(10): 1858?1870.
[6] ROCHA A M, COSTA M F, FERNANDES E M. A filter?based artificial fish swarm algorithm for constrained global optimization: theoretical and practical issues [J]. Journal of global optimization, 2014, 60(2): 239?263.
[7] OLIVA D, CUEVAS E, PAJARES G. Parameter identification of solar cells using artificial bee colony optimization [J]. Energy, 2014, 72(7): 93?102.
[8] LI Y, RYU D, WESTERN A W, et al. An integrated error parameter estimation and lag?aware data assimilation scheme for real?time flood forecasting [J]. Journal of hydrology, 2014, 519: 2722?2736.